0

0

Java中统计字符串中独立单词的数量

心靈之曲

心靈之曲

发布时间:2025-11-15 12:53:02

|

792人浏览过

|

来源于php中文网

原创

java中统计字符串中独立单词的数量

本教程详细介绍了如何在Java中实现一个方法,用于统计给定字符串中不重复单词的数量。我们将通过字符串分割、单词标准化(如转换为小写并去除标点)以及使用`ArrayList`来存储和检查单词的唯一性,最终返回独立单词的总数,避免使用如`HashSet`等高级集合类型。

在Java编程中,经常会遇到需要处理文本数据并从中提取特定信息的需求。其中一个常见任务是统计一个字符串中包含多少个独特的单词。例如,对于句子 "A long long time ago, I can still remember",我们希望得到的结果是 8(因为 "long" 出现了两次,但只应计算一次)。本教程将指导您如何构建一个方法来实现这一功能,同时遵循不使用高级集合类型(如 HashSet)的限制,而是利用基础的 ArrayList。

1. 理解核心问题与限制

核心问题是区分重复单词和独立单词。一个简单的单词计数器会计算所有出现的单词,而我们需要的是只计算第一次出现的单词。原始问题中明确指出,不允许使用 HashSet 或 HashMap 等高级数据结构,这使得我们必须依赖更基础的集合类,例如 ArrayList。

2. 实现思路

要解决这个问题,我们可以遵循以下步骤:

立即学习Java免费学习笔记(深入)”;

Angel工作室企业网站管理系统1.2
Angel工作室企业网站管理系统1.2

Angel工作室企业网站管理系统全DIV+CSS模板,中英文显示,防注入sql关键字过滤,多浏览器适应,完美兼容IE6-IE8,火狐,谷歌等符合标准的浏览器,模板样式集中在一个CSS样式中,内容与样式完全分离,方便网站设计人员开发模板与管理。系统较为安全,以设计防注入,敏感字符屏蔽。新闻,产品,单页独立关键字设计,提高搜索引擎收录。内置IIS测试,双击打启动预览网站    Angel工作室企业网站

下载
  1. 将字符串分割成单词: 使用字符串的 split() 方法根据空格或其他分隔符将句子分解成单个单词。
  2. 标准化单词: 在比较单词之前,需要对它们进行标准化处理。这通常包括:
    • 将所有单词转换为统一的大小写(例如,全部转为小写),以确保 "Word" 和 "word" 被视为同一个单词。
    • 去除单词中的标点符号,例如 "ago," 应该被处理成 "ago"。
  3. 存储和检查唯一性: 使用一个 ArrayList 来存储已经遇到的独特单词。在遍历分割后的单词时,对于每个单词,先检查它是否已经存在于 ArrayList 中。如果不存在,则将其添加到列表中。

3. 代码实现

下面是一个完整的Java方法,它实现了上述逻辑:

import java.util.ArrayList;
import java.util.List;

public class WordCounter {

    /**
     * 统计字符串中独立单词的数量。
     * 该方法将字符串分割成单词,对单词进行标准化处理(转小写并去除标点),
     * 然后使用ArrayList来存储和检查单词的唯一性。
     *
     * @param s 输入的字符串
     * @return 字符串中独立单词的数量
     */
    public static int countUniqueWords(String s) {
        if (s == null || s.trim().isEmpty()) {
            return 0;
        }

        // 1. 将字符串分割成单词
        // 使用正则表达式匹配一个或多个空格作为分隔符
        // 这将处理多个空格的情况,并避免生成空字符串
        String[] words = s.split("\\s+"); 

        List uniqueWords = new ArrayList<>();

        for (String word : words) {
            // 2. 标准化单词:
            // a. 去除单词中的非字母字符(标点符号、数字等)
            //    replaceAll("[^a-zA-Z]", "") 会移除所有非英文字母字符
            // b. 转换为小写,确保大小写不敏感的比较
            String cleanedWord = word.replaceAll("[^a-zA-Z]", "").toLowerCase();

            // 检查处理后的单词是否为空,例如,如果原始字符串中只有标点符号
            if (!cleanedWord.isEmpty()) {
                // 3. 存储和检查唯一性
                // 如果uniqueWords列表中不包含当前处理后的单词,则将其添加进去
                if (!uniqueWords.contains(cleanedWord)) {
                    uniqueWords.add(cleanedWord);
                }
            }
        }
        return uniqueWords.size();
    }

    public static void main(String[] args) {
        String sentence1 = "A long long time ago, I can still remember";
        String sentence2 = "Hello world! Hello Java, world!";
        String sentence3 = "  Only one word ";
        String sentence4 = "   "; // 空白字符串
        String sentence5 = "Java, Java, java.";

        System.out.println("Sentence 1: \"" + sentence1 + "\" -> Unique words: " + countUniqueWords(sentence1)); // 期望输出 8
        System.out.println("Sentence 2: \"" + sentence2 + "\" -> Unique words: " + countUniqueWords(sentence2)); // 期望输出 4 (hello, world, java)
        System.out.println("Sentence 3: \"" + sentence3 + "\" -> Unique words: " + countUniqueWords(sentence3)); // 期望输出 3 (only, one, word)
        System.out.println("Sentence 4: \"" + sentence4 + "\" -> Unique words: " + countUniqueWords(sentence4)); // 期望输出 0
        System.out.println("Sentence 5: \"" + sentence5 + "\" -> Unique words: " + countUniqueWords(sentence5)); // 期望输出 1 (java)
    }
}

4. 示例运行与输出

使用上述 main 方法运行代码,您将得到以下输出:

Sentence 1: "A long long time ago, I can still remember" -> Unique words: 8
Sentence 2: "Hello world! Hello Java, world!" -> Unique words: 4
Sentence 3: "  Only one word " -> Unique words: 3
Sentence 4: "   " -> Unique words: 0
Sentence 5: "Java, Java, java." -> Unique words: 1

5. 注意事项与性能考量

  • split() 方法: s.split("\\s+") 使用正则表达式 \s+ 来匹配一个或多个空白字符。这比 s.split(" ") 更健壮,可以正确处理单词之间有多个空格的情况,避免产生空的单词字符串。
  • 单词标准化: word.replaceAll("[^a-zA-Z]", "").toLowerCase() 是一个通用的标准化方法。[^a-zA-Z] 匹配任何非英文字母的字符,并将其替换为空字符串。toLowerCase() 则将所有字母转换为小写。根据具体需求,您可能需要调整正则表达式以包含数字或其他特定字符。
  • 性能: ArrayList.contains() 方法在最坏情况下需要遍历整个列表来查找元素,其时间复杂度为 O(n),其中 n 是列表中元素的数量。因此,对于非常大的文本,这种方法的性能可能不如使用 HashSet(其平均时间复杂度为 O(1))。然而,考虑到原始问题中对数据结构的限制,ArrayList 是一个合理的选择。
  • 空字符串/只有标点符号的单词: 在 cleanedWord.isEmpty() 检查中,我们确保只处理有效(非空)的单词。例如,如果原始字符串中有一个逗号 ,,经过 replaceAll 后会变成空字符串,我们不应将其计入独特单词。
  • 多语言支持: 当前的 replaceAll("[^a-zA-Z]", "") 仅处理英文字母。如果需要支持其他语言(如中文、法文等),则需要调整正则表达式来匹配相应的字符集。

6. 总结

通过本教程,我们学习了如何使用Java的基本字符串操作和 ArrayList 来实现一个方法,以统计字符串中独立单词的数量。这个方法通过字符串分割、单词标准化和列表的唯一性检查,有效地解决了在不使用高级集合类的情况下处理文本去重的问题。尽管在处理大规模数据时可能存在性能瓶颈,但它为理解和实现基础的文本处理逻辑提供了一个清晰的范例。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

826

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

726

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

731

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

396

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

445

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

429

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16884

2023.08.03

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

150

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.2万人学习

C# 教程
C# 教程

共94课时 | 5.8万人学习

Java 教程
Java 教程

共578课时 | 40.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号