Java中N-gram词组频率统计与最常见短语提取教程

DDD

发布时间：2025-11-18 17:39:35

617人浏览过

来源于php中文网

原创

Java中N-gram词组频率统计与最常见短语提取教程

本教程详细介绍了如何在java中，通过扩展单词频率统计方法，利用hashmap高效查找给定句子集合中最常见的连续词对（n-gram）。文章涵盖了n-gram的生成、计数逻辑以及如何从统计结果中提取出现频率最高的短语，为文本数据分析中识别关键多词表达提供了实用的实现指南。

在文本数据分析中，除了统计单个词语的频率，识别频繁出现的词组或短语（N-grams）同样至关重要。N-grams是文本中连续的N个词的序列，例如，一个二元词组（Bigram）由两个连续的词组成。通过统计N-grams的频率，我们可以更好地理解文本的上下文信息和常见的表达模式。本文将详细阐述如何在Java中实现N-gram（特别是Bigram）的频率统计，并找出其中出现频率最高的N-gram。

1. N-gram概念与应用

N-gram是自然语言处理中的一个基本概念，指的是文本中连续出现的N个项（可以是字符、音节或词语）。

Unigram (1-gram)：单个词语，如 "the", "quick", "brown"。
Bigram (2-gram)：两个连续的词语，如 "the quick", "quick brown"。
Trigram (3-gram)：三个连续的词语，如 "the quick brown"。

N-grams在多种应用中发挥作用，包括：

文本挖掘：识别常见短语、关键词组。
语言模型：预测下一个词的概率。
机器翻译：评估翻译质量。
拼写检查：检测不常见的词序。

2. 数据准备

假设我们已经对原始文本进行了预处理，包括分句、分词、去除停用词和标点符号，并将结果存储在一个嵌套的ArrayList结构中：ArrayList> sentence。其中，外层ArrayList代表一个句子列表，内层ArrayList代表一个句子中的词语列表。

立即学习“Java免费学习笔记（深入）”；

// 示例输入数据结构
ArrayList> sentence = new ArrayList<>();
// 模拟一些预处理后的句子
ArrayList s1 = new ArrayList<>(Arrays.asList("this", "is", "a", "sample", "sentence"));
ArrayList s2 = new ArrayList<>(Arrays.asList("another", "sample", "text", "for", "analysis"));
ArrayList s3 = new ArrayList<>(Arrays.asList("this", "is", "another", "example"));
sentence.add(s1);
sentence.add(s2);
sentence.add(s3);

3. N-gram生成与频率统计

要统计N-gram的频率，我们需要一个HashMap，其中键是N-gram字符串，值是其出现的次数。对于Bigram（二元词组），我们需要遍历每个句子中的词语列表，并成对地组合相邻的词语。

Copy Leaks

AI内容检测和分级，帮助创建和保护原创内容

下载

3.1 核心算法

初始化N-gram映射表：创建一个HashMap，用于存储N-gram及其对应的频率。
遍历所有句子：对外层ArrayList> sentence进行迭代，获取每个句子（即ArrayListwords）。
遍历句子中的词语：对当前句子中的词语列表words进行迭代。由于我们要生成N-gram，例如Bigram，我们需要从第一个词遍历到倒数第二个词（words.size() - 1）。
构建N-gram：在每次迭代中，将当前词words.get(i)和下一个词words.get(i + 1)拼接起来，形成一个Bigram字符串（例如，用空格分隔）。
更新N-gram频率：
- 检查HashMap是否已包含该N-gram。
- 如果不存在，将其添加到HashMap中，并将计数设为1。
- 如果已存在，则将其计数加1。

3.2 示例代码：生成Bigram并计数

import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;

public class NGramAnalyzer {

    /**
     * 统计所有Bigram的频率。
     * @param sentences 预处理后的句子列表，每个句子是一个词语列表。
     * @return 包含所有Bigram及其频率的HashMap。
     */
    public static HashMap countBigrams(ArrayList> sentences) {
        HashMap nGramMap = new HashMap<>();

        // 遍历每个句子
        for (ArrayList words : sentences) {
            // 遍历句子中的词语，生成连续的词对 (Bigrams)
            // 注意循环条件：i < words.size() - 1，确保 i+1 不越界
            for (int i = 0; i < words.size() - 1; i++) {
                // 组合当前词和下一个词形成Bigram
                String nGram = words.get(i) + " " + words.get(i + 1);

                // 更新Bigram的频率
                nGramMap.put(nGram, nGramMap.getOrDefault(nGram, 0) + 1);
            }
        }
        return nGramMap;
    }

    // ... 后续代码用于查找最常见的N-gram
}

4. 查找最常见的N-gram

在完成所有N-gram的频率统计后，下一步是从HashMap中找出出现次数最多的N-gram。这可以通过遍历HashMap的entrySet或keySet来完成。

4.1 核心算法

初始化：设置一个变量mostCommonNGram为空字符串，以及一个变量maxCount为0。
遍历N-gram映射表：遍历nGramMap中的每一个键值对（N-gram及其计数）。
比较并更新：对于每一个N-gram，如果其计数count大于当前的maxCount，则更新maxCount为count，并更新mostCommonNGram为当前N-gram。
返回结果：遍历结束后，mostCommonNGram即为出现频率最高的N-gram。

4.2 示例代码：查找最常见Bigram

将上述的countBigrams方法和查找最常见N-gram的逻辑整合到一个方法中，或者独立成两个方法。这里我们提供一个独立的查找方法。

// 承接上文的 NGramAnalyzer 类

public class NGramAnalyzer {

    // ... countBigrams 方法如上所示 ...

    /**
     * 从Bigram频率映射表中找出出现频率最高的Bigram。
     * @param nGramMap 包含Bigram及其频率的HashMap。
     * @return 出现频率最高的Bigram字符串。如果映射表为空，返回空字符串。
     */
    public static String findMostCommonNGram(HashMap nGramMap) {
        String mostCommonNGram = "";
        int maxCount = 0;

        if (nGramMap.isEmpty()) {
            return mostCommonNGram; // 处理空映射表的情况
        }

        // 遍历HashMap的entrySet，查找最大计数
        for (Map.Entry entry : nGramMap.entrySet()) {
            String nGram = entry.getKey();
            int count = entry.getValue();

            if (count > maxCount) {
                maxCount = count;
                mostCommonNGram = nGram;
            }
        }
        return mostCommonNGram;
    }

    public static void main(String[] args) {
        // 示例输入数据
        ArrayList> sentences = new ArrayList<>();
        sentences.add(new ArrayList<>(Arrays.asList("this", "is", "a", "sample", "sentence")));
        sentences.add(new ArrayList<>(Arrays.asList("another", "sample", "text", "for", "analysis")));
        sentences.add(new ArrayList<>(Arrays.asList("this", "is", "another", "example")));
        sentences.add(new ArrayList<>(Arrays.asList("sample", "sentence", "is", "important"))); // 添加更多数据以增加重复

        // 1. 统计所有Bigram的频率
        HashMap bigramFrequencies = countBigrams(sentences);
        System.out.println("所有Bigram及其频率: " + bigramFrequencies);

        // 2. 查找最常见的Bigram
        String mostCommon = findMostCommonNGram(bigramFrequencies);
        System.out.println("最常见的Bigram是: \"" + mostCommon + "\"");
        System.out.println("出现次数: " + bigramFrequencies.getOrDefault(mostCommon, 0));
    }
}

5. 扩展与注意事项

5.1 泛化到N-gram

上述代码实现了Bigram（N=2）的统计。要泛化到任意N值，只需修改N-gram的构建逻辑：

// 泛化到任意N-gram的生成
public static HashMap countNGrams(ArrayList> sentences, int n) {
    HashMap nGramMap = new HashMap<>();

    for (ArrayList words : sentences) {
        if (words.size() < n) { // 句子长度不足以构成N-gram
            continue;
        }
        for (int i = 0; i <= words.size() - n; i++) {
            StringBuilder nGramBuilder = new StringBuilder();
            for (int j = 0; j < n; j++) {
                nGramBuilder.append(words.get(i + j));
                if (j < n - 1) {
                    nGramBuilder.append(" "); // 用空格分隔词语
                }
            }
            String nGram = nGramBuilder.toString();
            nGramMap.put(nGram, nGramMap.getOrDefault(nGram, 0) + 1);
        }
    }
    return nGramMap;
}

5.2 性能考量

内存使用：对于大型文本语料库，N-gram的数量可能非常庞大，HashMap可能会占用大量内存。可以考虑使用更节省内存的数据结构（如Trie树）或流式处理。
计算效率：嵌套循环在大多数情况下效率尚可，但对于极大规模的数据，可能需要分布式计算框架（如Apache Spark）。

5.3 结果处理

处理并列：如果多个N-gram具有相同的最高频率，上述代码只会返回其中一个。如果需要返回所有并列的N-gram，则在查找最大计数的循环中，当count == maxCount时，将该N-gram添加到结果列表中。
过滤低频N-gram：在某些应用中，我们可能只关心出现频率达到一定阈值的N-gram，可以对最终的nGramMap进行过滤。

总结

本教程详细介绍了如何在Java中通过HashMap实现N-gram（特别是Bigram）的频率统计和最常见N-gram的查找。核心思想是遍历预处理后的词语列表，构建连续的词组（N-gram），并利用HashMap高效地记录它们的出现次数。通过这种方法，我们可以有效地从大量文本数据中提取有价值的多词短语信息，为进一步的文本分析和理解奠定基础。

解决Docx4J 3.3.3处理Word文档出现“内容不可读”错误的方案

解决Docx4J 3.3.3生成Word文档的“不可读内容”错误：源码修补指南

解决Docx4J v3.3.3生成Word文档的“内容不可读”错误

Docx4j PDF转换中页眉页脚临时图片残留问题解析与规避

将 Docx4j 文档转换为 PDF 时如何处理临时图片文件