php中str_word_count统计单词数_php支持多语言与标点忽略统计方法

絕刀狂花

发布时间：2025-11-28 22:45:07

318人浏览过

来源于php中文网

原创

str_word_count函数适用于英文单词统计，支持三种模式：返回总数、单词数组或带位置的关联数组；但对中文等无空格分隔语言无效，需用正则preg_replace配合\p{L}和\p{N}清理标点并分割空白来粗略统计多语言文本；精确处理中文建议使用SCWS或Jieba分词扩展。

php中str_word_count统计单词数_php支持多语言与标点忽略统计方法

在PHP中，str_word_count() 函数常用于统计字符串中的单词数量。默认情况下，它主要针对英文文本设计，能识别由空格或标点分隔的字母组合为单词。但在处理多语言（如中文、日文、阿拉伯文等）或包含复杂标点符号的文本时，该函数的表现有限，需要结合其他方法进行优化。

str_word_count() 基本用法

该函数有三种返回模式：

0（默认）：返回单词总数
1：返回包含所有单词的数组
2：返回关联数组，键为单词起始位置，值为单词内容

$str = "Hello, welcome to PHP world!";
echo str_word_count($str); // 输出: 5
print_r(str_word_count($str, 1)); 
// 输出: Array ( [0] => Hello [1] => welcome [2] => to [3] => PHP [4] => world )

注意：该函数会忽略常见标点符号（如逗号、句号），但只对拉丁字母有效，无法识别中文、日文等非空格分隔语言的“单词”。

多语言支持问题与解决方案

对于中文、日文、泰文等语言，由于没有明显的单词边界（不像英文用空格分隔），str_word_count() 无法正确识别词汇。例如：

立即学习“PHP免费学习笔记（深入）”；

$str = "你好世界，欢迎使用PHP！";
echo str_word_count($str); // 输出: 0

这是因为 str_word_count 只识别 a-zA-Z 字符。要实现多语言单词或词语统计，需采用以下策略：

使用正则表达式匹配Unicode文字块：通过 preg_match_all 匹配各类语言的文字单位
按字符或词语切分中文文本：借助第三方分词库（如 SCWS 中文分词）
自定义规则过滤标点：去除或忽略常见标点符号后再统计

支持多语言与忽略标点的统计方法

以下是一个增强型函数，可统计多种语言的“词”或“字符组合”，并自动忽略常见标点：

Action Figure AI

借助Action Figure AI的先进技术，瞬间将照片转化为定制动作人偶。

下载

function count_words_multilingual($str) {
    // 移除标点符号，保留文字字符
    $clean = preg_replace('/[^\p{L}\p{N}\s]/u', ' ', $str);
    // 按空白字符分割，并过滤空项
    $words = preg_split('/\s+/u', $clean, -1, PREG_SPLIT_NO_EMPTY);
    return count($words);
}

// 示例
$text = "Hello, 你好！مرحبا، ? 123";
echo count_words_multilingual($text); // 输出: 5

说明：

\p{L} 匹配任意语言的字母（包括中文、阿拉伯文、俄文等）
\p{N} 匹配数字
u 修饰符启用UTF-8模式
先清理标点，再以空格类字符分割，模拟“单词”概念

此方法虽不能精确分词（如中文仍按单字或连续字块处理），但可用于粗略统计文本中的语言单元。

进阶建议：结合分词扩展

若需精确处理中文，推荐使用：

SCWS（Simple Chinese Word Segmentation）：专为中文设计的分词引擎，PHP 有扩展支持
Jieba 分词（PHP移植版）：基于Python Jieba 的PHP实现，支持精准模式分词

这些工具能将“我喜欢编程”正确切分为 ["我", "喜欢", "编程"]，从而实现真正意义上的“词”统计。

基本上就这些。str_word_count 适合英文环境，多语言场景需依赖正则或专用分词工具来准确统计。关键是根据语言类型选择合适的方法，并合理处理标点干扰。

如何在 PHP 中从数组随机选取值并安全插入 MySQL 数据库

PHP 重定向链接被浏览器缓存导致数据库仅每分钟更新一次的解决方案

如何在 MySQL 中插入 PHP 数组的随机值

如何在 MySQL 更新语句中安全插入 PHP 数组的随机元素

PHP如何整合PostgreSQL环境_PHP整合PostgreSQL环境驱动【数据库】

WPS零基础入门到精通全套教程！

全网最新最细最实用WPS零基础入门到精通全套教程！带你真正掌握WPS办公！内含Excel基础操作、函数设计、数据透视表等

下载

相关标签:

php word python 正则表达式工具多语言 Python php 正则表达式关联数组字符串 word

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php显示和实际时间不同的解决下一篇：php中如何设计队列

作者最新文章

Win11快速安装系统要多久_快速安装时长及优化法【指南】

2026-01-13 16:45

Word水印打印不出来咋设置_Word水印打印设置法【方法】

2026-01-13 16:45

戴尔电脑怎么开启html5播放_戴尔电脑启用html5方式【设置】

2026-01-13 16:53

PPT图片倒影效果不真实咋优_PPT倒影优化法【窍门】

2026-01-13 16:54

Win11怎么关闭OneDrive同步_Win11关闭OneDrive同步法【断云】

2026-01-13 16:56

Word图片置于文字下方挡字咋改_Word图文层序调法【方法】

2026-01-13 16:57

谷歌浏览器用户中心登录入口 Chrome浏览器账户同步设置页面

2026-01-13 16:59

Excel分类汇总怎么不遗漏_Excel分类汇总完整做法【指南】

2026-01-13 17:02

Word页脚横线删不掉咋隐_Word页脚线隐藏法【方法】

2026-01-13 17:03

HTML5如何加密WebAssembly模块_HTML5Wasm模块加密加载法【融贯】

2026-01-13 17:04

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

750

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

635

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

706

2023.08.11