0

0

Java中N-gram词组频率统计与最常见短语提取教程

DDD

DDD

发布时间:2025-11-18 17:39:35

|

617人浏览过

|

来源于php中文网

原创

Java中N-gram词组频率统计与最常见短语提取教程

本教程详细介绍了如何在java中,通过扩展单词频率统计方法,利用hashmap高效查找给定句子集合中最常见的连续词对(n-gram)。文章涵盖了n-gram的生成、计数逻辑以及如何从统计结果中提取出现频率最高的短语,为文本数据分析中识别关键多词表达提供了实用的实现指南。

在文本数据分析中,除了统计单个词语的频率,识别频繁出现的词组或短语(N-grams)同样至关重要。N-grams是文本中连续的N个词的序列,例如,一个二元词组(Bigram)由两个连续的词组成。通过统计N-grams的频率,我们可以更好地理解文本的上下文信息和常见的表达模式。本文将详细阐述如何在Java中实现N-gram(特别是Bigram)的频率统计,并找出其中出现频率最高的N-gram。

1. N-gram概念与应用

N-gram是自然语言处理中的一个基本概念,指的是文本中连续出现的N个项(可以是字符、音节或词语)。

  • Unigram (1-gram):单个词语,如 "the", "quick", "brown"。
  • Bigram (2-gram):两个连续的词语,如 "the quick", "quick brown"。
  • Trigram (3-gram):三个连续的词语,如 "the quick brown"。

N-grams在多种应用中发挥作用,包括:

  • 文本挖掘:识别常见短语、关键词组。
  • 语言模型:预测下一个词的概率。
  • 机器翻译:评估翻译质量。
  • 拼写检查:检测不常见的词序。

2. 数据准备

假设我们已经对原始文本进行了预处理,包括分句、分词、去除停用词和标点符号,并将结果存储在一个嵌套的ArrayList结构中:ArrayList> sentence。其中,外层ArrayList代表一个句子列表,内层ArrayList代表一个句子中的词语列表。

立即学习Java免费学习笔记(深入)”;

// 示例输入数据结构
ArrayList> sentence = new ArrayList<>();
// 模拟一些预处理后的句子
ArrayList s1 = new ArrayList<>(Arrays.asList("this", "is", "a", "sample", "sentence"));
ArrayList s2 = new ArrayList<>(Arrays.asList("another", "sample", "text", "for", "analysis"));
ArrayList s3 = new ArrayList<>(Arrays.asList("this", "is", "another", "example"));
sentence.add(s1);
sentence.add(s2);
sentence.add(s3);

3. N-gram生成与频率统计

要统计N-gram的频率,我们需要一个HashMap,其中键是N-gram字符串,值是其出现的次数。对于Bigram(二元词组),我们需要遍历每个句子中的词语列表,并成对地组合相邻的词语。

Copy Leaks
Copy Leaks

AI内容检测和分级,帮助创建和保护原创内容

下载

3.1 核心算法

  1. 初始化N-gram映射表:创建一个HashMap,用于存储N-gram及其对应的频率。
  2. 遍历所有句子:对外层ArrayList> sentence进行迭代,获取每个句子(即ArrayListwords)。
  3. 遍历句子中的词语:对当前句子中的词语列表words进行迭代。由于我们要生成N-gram,例如Bigram,我们需要从第一个词遍历到倒数第二个词(words.size() - 1)。
  4. 构建N-gram:在每次迭代中,将当前词words.get(i)和下一个词words.get(i + 1)拼接起来,形成一个Bigram字符串(例如,用空格分隔)。
  5. 更新N-gram频率
    • 检查HashMap是否已包含该N-gram。
    • 如果不存在,将其添加到HashMap中,并将计数设为1。
    • 如果已存在,则将其计数加1。

3.2 示例代码:生成Bigram并计数

import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;

public class NGramAnalyzer {

    /**
     * 统计所有Bigram的频率。
     * @param sentences 预处理后的句子列表,每个句子是一个词语列表。
     * @return 包含所有Bigram及其频率的HashMap。
     */
    public static HashMap countBigrams(ArrayList> sentences) {
        HashMap nGramMap = new HashMap<>();

        // 遍历每个句子
        for (ArrayList words : sentences) {
            // 遍历句子中的词语,生成连续的词对 (Bigrams)
            // 注意循环条件:i < words.size() - 1,确保 i+1 不越界
            for (int i = 0; i < words.size() - 1; i++) {
                // 组合当前词和下一个词形成Bigram
                String nGram = words.get(i) + " " + words.get(i + 1);

                // 更新Bigram的频率
                nGramMap.put(nGram, nGramMap.getOrDefault(nGram, 0) + 1);
            }
        }
        return nGramMap;
    }

    // ... 后续代码用于查找最常见的N-gram
}

4. 查找最常见的N-gram

在完成所有N-gram的频率统计后,下一步是从HashMap中找出出现次数最多的N-gram。这可以通过遍历HashMap的entrySet或keySet来完成。

4.1 核心算法

  1. 初始化:设置一个变量mostCommonNGram为空字符串,以及一个变量maxCount为0。
  2. 遍历N-gram映射表:遍历nGramMap中的每一个键值对(N-gram及其计数)。
  3. 比较并更新:对于每一个N-gram,如果其计数count大于当前的maxCount,则更新maxCount为count,并更新mostCommonNGram为当前N-gram。
  4. 返回结果:遍历结束后,mostCommonNGram即为出现频率最高的N-gram。

4.2 示例代码:查找最常见Bigram

将上述的countBigrams方法和查找最常见N-gram的逻辑整合到一个方法中,或者独立成两个方法。这里我们提供一个独立的查找方法。

// 承接上文的 NGramAnalyzer 类

public class NGramAnalyzer {

    // ... countBigrams 方法如上所示 ...

    /**
     * 从Bigram频率映射表中找出出现频率最高的Bigram。
     * @param nGramMap 包含Bigram及其频率的HashMap。
     * @return 出现频率最高的Bigram字符串。如果映射表为空,返回空字符串。
     */
    public static String findMostCommonNGram(HashMap nGramMap) {
        String mostCommonNGram = "";
        int maxCount = 0;

        if (nGramMap.isEmpty()) {
            return mostCommonNGram; // 处理空映射表的情况
        }

        // 遍历HashMap的entrySet,查找最大计数
        for (Map.Entry entry : nGramMap.entrySet()) {
            String nGram = entry.getKey();
            int count = entry.getValue();

            if (count > maxCount) {
                maxCount = count;
                mostCommonNGram = nGram;
            }
        }
        return mostCommonNGram;
    }

    public static void main(String[] args) {
        // 示例输入数据
        ArrayList> sentences = new ArrayList<>();
        sentences.add(new ArrayList<>(Arrays.asList("this", "is", "a", "sample", "sentence")));
        sentences.add(new ArrayList<>(Arrays.asList("another", "sample", "text", "for", "analysis")));
        sentences.add(new ArrayList<>(Arrays.asList("this", "is", "another", "example")));
        sentences.add(new ArrayList<>(Arrays.asList("sample", "sentence", "is", "important"))); // 添加更多数据以增加重复

        // 1. 统计所有Bigram的频率
        HashMap bigramFrequencies = countBigrams(sentences);
        System.out.println("所有Bigram及其频率: " + bigramFrequencies);

        // 2. 查找最常见的Bigram
        String mostCommon = findMostCommonNGram(bigramFrequencies);
        System.out.println("最常见的Bigram是: \"" + mostCommon + "\"");
        System.out.println("出现次数: " + bigramFrequencies.getOrDefault(mostCommon, 0));
    }
}

5. 扩展与注意事项

5.1 泛化到N-gram

上述代码实现了Bigram(N=2)的统计。要泛化到任意N值,只需修改N-gram的构建逻辑:

// 泛化到任意N-gram的生成
public static HashMap countNGrams(ArrayList> sentences, int n) {
    HashMap nGramMap = new HashMap<>();

    for (ArrayList words : sentences) {
        if (words.size() < n) { // 句子长度不足以构成N-gram
            continue;
        }
        for (int i = 0; i <= words.size() - n; i++) {
            StringBuilder nGramBuilder = new StringBuilder();
            for (int j = 0; j < n; j++) {
                nGramBuilder.append(words.get(i + j));
                if (j < n - 1) {
                    nGramBuilder.append(" "); // 用空格分隔词语
                }
            }
            String nGram = nGramBuilder.toString();
            nGramMap.put(nGram, nGramMap.getOrDefault(nGram, 0) + 1);
        }
    }
    return nGramMap;
}

5.2 性能考量

  • 内存使用:对于大型文本语料库,N-gram的数量可能非常庞大,HashMap可能会占用大量内存。可以考虑使用更节省内存的数据结构(如Trie树)或流式处理。
  • 计算效率:嵌套循环在大多数情况下效率尚可,但对于极大规模的数据,可能需要分布式计算框架(如Apache Spark)。

5.3 结果处理

  • 处理并列:如果多个N-gram具有相同的最高频率,上述代码只会返回其中一个。如果需要返回所有并列的N-gram,则在查找最大计数的循环中,当count == maxCount时,将该N-gram添加到结果列表中。
  • 过滤低频N-gram:在某些应用中,我们可能只关心出现频率达到一定阈值的N-gram,可以对最终的nGramMap进行过滤。

总结

本教程详细介绍了如何在Java中通过HashMap实现N-gram(特别是Bigram)的频率统计和最常见N-gram的查找。核心思想是遍历预处理后的词语列表,构建连续的词组(N-gram),并利用HashMap高效地记录它们的出现次数。通过这种方法,我们可以有效地从大量文本数据中提取有价值的多词短语信息,为进一步的文本分析和理解奠定基础。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

832

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

738

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

734

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16925

2023.08.03

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.5万人学习

C# 教程
C# 教程

共94课时 | 6.8万人学习

Java 教程
Java 教程

共578课时 | 46.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号