首页 > web前端 > js教程 > 正文

使用正则表达式实现类WhatsApp文本格式化与HTML转换教程

聖光之護
发布: 2025-11-21 13:45:01
原创
365人浏览过

使用正则表达式实现类WhatsApp文本格式化与HTML转换教程

本教程详细阐述如何利用javascript正则表达式,将遵循whatsapp风格的特殊符号(如`*`、`_`、`~`)标记的文本转换为对应的html标签(``、``、``)。文章深入探讨了如何通过负向先行断言和负向后行断言处理复杂的格式化条件,包括前置字符限制和内容起始空格限制,并提供实用的代码示例及潜在局限性分析。

在现代即时通讯应用中,用户通常通过简单的符号(如星号、下划线、波浪线)来对文本进行加粗、斜体或删除线等格式化操作。这些应用在解析这些符号时,往往会遵循一套特定的规则,例如限制前置字符、禁止内容以空格开头,甚至对符号的重复使用有严格要求。本教程旨在介绍如何使用JavaScript和正则表达式来模拟这种“类WhatsApp”的文本格式化规则,并将其转换为标准的HTML标签。

理解类WhatsApp文本格式化规则

在实现转换之前,我们需要明确这些规则的特点:

  1. 基本语法

    • 加粗:*文本* 转换为 <b>文本</b>
    • 斜体:_文本_ 转换为 <i>文本</i>
    • 删除线:~文本~ 转换为 <s>文本</s>
    • 组合格式:~_*文本*_~ 转换为 <s><i><b>文本</b></i></s>
  2. 前置字符限制: 某些字符紧跟在格式化符号之前时,可能会阻止格式化生效。例如,在WhatsApp中,,*文本* 可以格式化为 ,<b>文本</b>,但 @*文本* 则不会被格式化。这意味着我们需要识别并排除某些特定的前置字符。

  3. 内容起始空格限制: 格式化符号后紧跟空格的文本通常不会被格式化。例如,* 文本* 不会被加粗。

  4. 符号重复限制: 连续使用多个相同的格式化符号可能会导致不同的行为:

    • **文本**:有时会被解析为 <b>*文本*</b>(即只处理最外层的一对符号,内部的符号保留)。
    • ***文本**:在某些严格的规则下,如果起始符号数量超过一个(例如三个星号),则整个文本块可能完全不被格式化。

使用正则表达式实现格式转换

核心思路是利用正则表达式捕获符合特定模式的文本,然后使用替换功能将其包裹在相应的HTML标签中。为了处理上述复杂规则,我们将引入“先行断言”(Lookahead Assertion)和“后行断言”(Lookbehind Assertion)。

立即学习前端免费学习笔记(深入)”;

初始正则表达式尝试及局限性

一个基本的正则表达式可能如下所示:

text
    .replace(/(?:\*)(?:(?!\s))((?:(?!\*|\n).)+)(?:\*)/g, '<b>$1</b>')
    .replace(/(?:_)(?:(?!\s))((?:(?!\n|_).)+)(?:_)/g, '<i>$1</i>')
    .replace(/(?:~)(?:(?!\s))((?:(?!\n|~).)+)(?:~)/g, '<s>$1</s>');
登录后复制

这段代码通过 (?!\s) 确保格式化符号后不紧跟空格,并使用 ((?:(?!\*|\n).)+) 捕获内容,直到遇到下一个符号或换行符。然而,它并未解决前置字符限制和复杂的符号重复限制。

Tellers AI
Tellers AI

Tellers是一款自动视频编辑工具,可以将文本、文章或故事转换为视频。

Tellers AI 78
查看详情 Tellers AI

引入负向后行断言处理前置字符限制

为了处理前置字符限制,我们可以使用负向后行断言(Negative Lookbehind Assertion),即 (?<!pattern)。它确保在当前匹配位置之前,不能出现特定的 pattern。

以下是针对加粗、斜体和删除线的增强型正则表达式:

// 加粗:匹配 *文本*,但前面不能是 {、[、?、}、] 且 * 后不能是空格
string = string.replace(/(?<![{[?}\]])\*(?!\s)(.+?)\*/g, '<b>$1</b>');
// 斜体:匹配 _文本_,但前面不能是 {、[、?、}、] 且 _ 后不能是空格
string = string.replace(/(?<![{[?}\]])_(?!\s)(.+?)_/g, '<i>$1</i>');
// 删除线:匹配 ~文本~,但前面不能是 {、[、?、}、] 且 ~ 后不能是空格
string = string.replace(/(?<![{[?}\]])~(?!\s)(.+?)~/g, '<s>$1</s>');
登录后复制

正则表达式解析:

  • (?<![{[?}\]]):这是一个负向后行断言。它表示在当前匹配的 *(或 _ 或 ~)之前,不能出现字符 {、[、?、}、] 中的任意一个。这解决了部分前置字符的限制问题。
  • \* 或 _ 或 ~:匹配字面意义上的格式化符号。
  • (?!\s):这是一个负向先行断言。它确保格式化符号后面不能紧跟一个空格。这解决了内容起始空格的限制。
  • (.+?):这是一个非贪婪匹配模式,捕获两个格式化符号之间的所有字符。$1 在替换时引用这里捕获的内容。
  • \* 或 _ 或 ~:匹配结束的格式化符号。

完整代码示例

function formatWhatsAppTextToHtml(text) {
  let formattedText = text;

  // 1. 处理加粗
  // 匹配 *文本*,但前面不能是 {、[、?、}、] 且 * 后不能是空格
  // 注意:此规则会处理 `**bold**` 为 `<b>*bold*</b>`
  formattedText = formattedText.replace(/(?<![{[?}\]])\*(?!\s)(.+?)\*/g, '<b>$1</b>');

  // 2. 处理斜体
  // 匹配 _文本_,但前面不能是 {、[、?、}、] 且 _ 后不能是空格
  formattedText = formattedText.replace(/(?<![{[?}\]])_(?!\s)(.+?)_/g, '<i>$1</i>');

  // 3. 处理删除线
  // 匹配 ~文本~,但前面不能是 {、[、?、}、] 且 ~ 后不能是空格
  formattedText = formattedText.replace(/(?<![{[?}\]])~(?!\s)(.+?)~/g, '<s>$1</s>');

  return formattedText;
}

// 示例测试
const inputString = `
这些应该成功格式化:
  *this text is bold*, 
  _this text is italic_, 
  ~this text is strikethrough~. 
  ~_*this text is bold, italic and strike-through*_~

  ,*this text is bold* (逗号前置)

这些应该不被格式化 (或部分格式化):
  _ example_ (内容以空格开头)
  {*example*} (前置字符 { )
  @*example* (前置字符 @ - 注意:当前lookbehind未涵盖此情况)
  **this text is bold** (多余的星号)
  ***this text is not bold** (多余的星号,应完全不格式化 - 注意:当前regex未完全实现此严格规则)
`;

console.log("--- 原始文本 ---");
console.log(inputString);
console.log("\n--- 格式化结果 ---");
console.log(formatWhatsAppTextToHtml(inputString));

/* 预期输出示例 (基于当前正则表达式):
--- 原始文本 ---
... (同inputString)

--- 格式化结果 ---
这些应该成功格式化:
  <b>this text is bold</b>,
  <i>this text is italic</i>,
  <s>this text is strikethrough</s>.
  <s><i><b>this text is bold, italic and strike-through</b></i></s>

  ,<b>this text is bold</b> (逗号前置)

这些应该不被格式化 (或部分格式化):
  _ example_ (内容以空格开头)
  {*example*} (前置字符 { )
  @*example* (前置字符 @ - 注意:当前lookbehind未涵盖此情况)
  <b>*this text is bold*</b> (多余的星号)
  <b>**this text is not bold</b> (多余的星号,应完全不格式化 - 注意:当前regex未完全实现此严格规则)
*/
登录后复制

注意事项与局限性

尽管上述正则表达式解决了许多复杂场景,但仍存在一些局限性,特别是在严格模拟所有WhatsApp规则时:

  1. 不完整的前置字符列表: 当前 (?<![{[?}\]]) 只排除了 {、[、?、}、]。如果WhatsApp有更多不允许的前置字符(例如 !、@ 等),需要将它们添加到负向后行断言中。例如,要排除 @,可以将正则表达式修改为 (?<![{[?}\]]|@)\*(?!\s)(.+?)\*。

  2. 符号重复限制的复杂性

    • 对于 **this text is bold**,当前正则表达式会将其转换为 <b>*this text is bold*</b>。这符合某些Markdown方言的行为,但如果预期是 <b>this text is bold</b> 或者完全不格式化,则需要更复杂的逻辑。
    • 对于 ***this text is not bold**,根据问题描述,这应该完全不被格式化。然而,当前的正则表达式会将其处理为 <b>**this text is not bold</b>。要实现“如果起始符号数量超过一个,则不格式化”的规则,仅靠简单的替换可能不够。这可能需要更精细的正则表达式(例如,检查开头是否有多个相同符号且没有匹配的结束符号)或者一个分词器(lexer)来处理。
  3. 嵌套格式化: 对于 *bold _italic_* 这样的嵌套结构,简单的顺序替换可能会产生预期之外的结果。例如,先处理加粗,内部的 _italic_ 可能仍然保留,或者如果先处理斜体,外部的 *bold ...* 可能无法正确匹配。通常,处理嵌套结构需要更复杂的解析器或递归处理。

  4. 性能考量: 对于非常大的文本块,连续应用多个正则表达式替换可能会影响性能。

总结

通过巧妙运用正则表达式的先行断言和后行断言,我们可以有效地将带有特定规则的符号化文本转换为HTML格式。这在构建文本编辑器、聊天应用解析器或内容管理系统时非常有用。然而,对于高度复杂的、包含多层嵌套或严格上下文依赖的格式化规则,可能需要超越简单的正则表达式,考虑构建一个更健壮的词法分析器或解析器来确保准确性和灵活性。在实际应用中,应根据具体需求和规则的复杂程度选择最合适的实现方案。

以上就是使用正则表达式实现类WhatsApp文本格式化与HTML转换教程的详细内容,更多请关注php中文网其它相关文章!

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号