使用正则表达式在Python中统计特定标记词后的词语数量

聖光之護

发布时间：2025-11-27 11:05:02

534人浏览过

来源于php中文网

原创

使用正则表达式在python中统计特定标记词后的词语数量

本文将详细介绍如何在Python中使用正则表达式，精准统计字符串中特定下划线标记词后的词语数量。教程涵盖两种核心场景：一是仅统计下划线词语之后的部分（不包含标记词本身），二是统计从下划线词语开始的所有词语（包含标记词本身）。通过具体的正则表达式模式解析和Python代码示例，帮助读者掌握高效的文本处理技巧。

统计下划线标记词后的词语数量（不包含标记词本身）

当我们需要统计一个字符串中，某个以下划线开头的特定词语之后的所有词语数量时，可以使用正则表达式来精确匹配并提取所需部分。这种方法避免了对下划线词语之前内容的干扰，只关注目标区域。

正则表达式模式

_\w+\s([\w\s]+)

模式解析

_: 精确匹配下划线字符。
\w+: 匹配一个或多个字母、数字或下划线字符。这部分与 _ 结合，用于定位并匹配整个下划线标记词（例如 _Earth）。
\s: 匹配下划线标记词之后的一个空格。
([\w\s]+): 这是一个捕获组。
- [\w\s]: 匹配任何单词字符（字母、数字、下划线）或空格。
- +: 表示匹配一个或多个 [\w\s]。
- 整个捕获组的目的是捕获下划线标记词及其后续空格之后的所有单词和空格，直到字符串结束或遇到不匹配的字符。

Python 实现示例

import re

test_string = '21 High Street _Earth Mighty Motor Mechanic'
pattern = r'_\w+\s([\w\s]+)'

match = re.search(pattern, test_string)

if match:
    # match.group(1) 获取捕获组的内容，即下划线词语之后的所有词语和空格
    words_after = match.group(1).split()
    count = len(words_after)
    print(f"在下划线标记词之后找到的词语数量（不包含标记词）：{count}")
else:
    print("未找到下划线标记词或其后没有词语。")

# 示例输出:
# 在下划线标记词之后找到的词语数量（不包含标记词）：3

代码说明

re.search(pattern, test_string): 尝试在 test_string 中查找 pattern 的第一个匹配项。如果找到，返回一个匹配对象；否则返回 None。
match.group(1): 如果找到匹配项，此方法用于提取第一个捕获组（即 ([\w\s]+)）所匹配的内容。
.split(): 默认情况下，此方法会根据空白字符（空格、制表符、换行符等）分割字符串，并返回一个词语列表。
len(words_after): 计算列表中词语的数量。

统计从下划线标记词开始的词语数量（包含标记词本身）

有时，我们可能希望将下划线标记词本身也包含在计数中。在这种情况下，正则表达式的构造需要进行相应调整，确保捕获组能包含下划线标记词。

正则表达式模式

(_\w+\s[\w\s]+)

模式解析

(_\w+\s[\w\s]+): 这是一个捕获组，它将匹配并捕获从下划线标记词开始的所有内容。
- _\w+: 匹配下划线标记词。
- \s: 匹配标记词后的一个空格。
- [\w\s]+: 匹配其后所有单词字符或空格。
- 整个组合 (_\w+\s[\w\s]+) 确保了从下划线词语到后续所有词语都被捕获。

Python 实现示例

import re

test_string = '21 High Street _Earth Mighty Motor Mechanic'
pattern = r'(_\w+\s[\w\s]+)'

match = re.search(pattern, test_string)

if match:
    # match.group(1) 获取捕获组的内容，此时包含下划线词语本身
    words_inclusive = match.group(1).split()
    count = len(words_inclusive)
    print(f"从下划线标记词开始的所有词语数量（包含标记词）：{count}")
else:
    print("未找到下划线标记词或其后没有词语。")

# 示例输出:
# 从下划线标记词开始的所有词语数量（包含标记词）：4

代码说明

与前一个示例类似，主要区别在于 pattern 的定义。通过将整个目标匹配部分（包括下划线标记词）放入一个捕获组，match.group(1) 将直接返回包含下划线标记词的完整子字符串，后续的 .split() 和 len() 操作即可得到包含标记词在内的词语总数。

PicWish

推荐！专业的AI抠图修图，支持格式转化

下载

立即学习“Python免费学习笔记（深入）”；

注意事项与总结

选择合适的模式： 核心在于明确你的计数需求——是否需要包含下划线标记词本身。根据这一需求选择相应的正则表达式模式。
re.search 与 re.findall： 在本教程的场景中，我们通常关注第一个下划线标记词及其后续词语。re.search() 查找第一个匹配项并返回一个匹配对象，其 group(1) 方法能方便地提取我们所需的部分。如果使用 re.findall()，它会返回所有非重叠匹配的列表，但对于本例，re.search 配合捕获组是更直接和推荐的方法。
字符串分割： str.split() 方法默认以任意空白字符为分隔符，并会处理连续的空白字符，这对于统计词语数量非常方便。
边界情况：
- 如果字符串中不存在下划线标记词，re.search 将返回 None，应进行相应的错误处理。
- 如果下划线标记词后没有其他词语（例如 '_Earth'），则第一个模式的 ([\w\s]+) 将不匹配，match 会是 None。第二个模式如果只有 _Earth 也会是 None。因此，在代码中添加 if match: 判断是必要的。
- 对于更复杂的词语定义（例如包含标点符号的词语），可能需要调整 \w 或 [\w\s] 的定义，例如使用 [a-zA-Z0-9_'-]+ 来包含连字符和撇号，或者在分割后进一步处理。

通过掌握这些正则表达式技巧，你可以有效地处理Python中的字符串，实现精准的词语计数和信息提取。

如何高效将CSV数据导入Word并生成表格

使用Python做文档自动化生成_PDF与Word批量生成技巧

Python自动化办公高级教程_ExcelWordPDF批量操作优化

Python自动化办公项目教程_批量ExcelPDFWord处理案例

Python自动化办公教程_ExcelWordPDF批量处理案例

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

755

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

759

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

708

2023.08.11

C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法，包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程，以及常见代码质量问题的发现与修复。通过工程化示例，帮助开发者建立可测试、可维护、高质量的 C++ 项目体系。

2026.01.16

热门下载

网站特效

网站源码

网站素材

前端模板