0

0

JavaScript中使用正则表达式解析并提取复杂模板字符串中的内容

碧海醫心

碧海醫心

发布时间:2025-07-17 21:34:01

|

700人浏览过

|

来源于php中文网

原创

javascript中使用正则表达式解析并提取复杂模板字符串中的内容

本教程详细讲解了如何利用JavaScript正则表达式和matchAll方法,精确地解析并提取包含特定模板标记(如{{ variable }})的字符串内容。文章深入剖析了核心正则表达式的构造,并通过示例代码展示了如何处理匹配结果,以保留原始文本的格式,同时规范化模板标记,实现灵活且强大的字符串解析功能。

引言:理解复杂字符串解析挑战

在前端开发或数据处理中,我们经常需要从非结构化的文本中提取特定格式的数据。一个常见的场景是解析包含自定义模板标记的字符串,例如{{ text1 }}。传统的字符串分割方法(如String.prototype.split())通常会丢弃分隔符,这在需要同时保留分隔符本身以及分隔符之间内容的场景下是不可行的。本教程将介绍如何利用JavaScript的正则表达式和matchAll方法,高效且精确地实现这一目标。

我们的目标是将形如 {{ text1 }} 123 {{text1}}{{text1}} {{ text1}}134 的输入字符串,解析为以下数组形式: ["{{text1}}"," 123 ","{{text1}}","{{text1}}"," ","{{text1}}","134"]

注意,这里不仅要识别 {{...}} 结构,还要处理其内部可能存在的空格,并保留非 {{...}} 部分的原始空格。

核心正则表达式解析

实现这一目标的关键在于构建一个能够同时匹配两种模式的正则表达式:

  1. 模板标记,即 {{ 后跟变量名(可能包含空格),再跟 }}。
  2. 模板标记之间的普通文本。

我们使用的正则表达式是:/\{\{\s*([^}]+)\s*\}\}|([^{}]+)/g。下面对其进行详细解析:

立即学习Java免费学习笔记(深入)”;

  • \{\{ 和 \}\}: 匹配字面量的大括号。在正则表达式中,{ 和 } 是特殊字符,因此需要使用反斜杠 \ 进行转义。
  • \s*: 匹配零个或多个空白字符(包括空格、制表符、换行符等)。这用于处理模板标记内部(如{{ text1 }}中的` `)以及外部可能存在的空白。
  • ([^}]+): 这是第一个捕获组
    • [^}]: 匹配任何不是 } 的字符。
    • +: 匹配前一个字符或组一次或多次。
    • 因此,([^}]+) 捕获的是 {{ 和 }} 之间,且不包含 } 的所有内容,这正是我们想要的变量名部分。
  • |: 这是正则表达式的“或”操作符,表示匹配其左侧的模式或右侧的模式。
  • ([^{}]+): 这是第二个捕获组
    • [^{}]: 匹配任何既不是 { 也不是 } 的字符。
    • +: 匹配前一个字符或组一次或多次。
    • 因此,([^{}]+) 捕获的是在 {{...}} 模板标记之外的普通文本。
  • /g: 这是全局标志(global flag)。它告诉正则表达式引擎查找字符串中所有匹配项,而不是在找到第一个匹配项后就停止。

通过 | 运算符连接两个捕获模式,我们能够确保字符串的每个部分(无论是模板标记还是普通文本)都能被匹配到。

使用 matchAll 方法进行匹配

String.prototype.matchAll() 方法是处理此类复杂匹配场景的理想选择。它返回一个迭代器,其中包含所有匹配项的完整信息。每个匹配项都是一个数组,其第一个元素 ([0]) 是完整的匹配字符串,后续元素 ([1], [2], ...) 对应于正则表达式中的捕获组。

我们可以通过扩展运算符 ... 将 matchAll 返回的迭代器转换为一个数组,方便后续处理:

Spell.tools
Spell.tools

高颜值AI内容营销创作工具

下载
const input = `{{ text1  }} 123 {{text1}}{{text1}}  {{  text1}}134`;
const regex = /\{\{\s*([^}]+)\s*\}\}|([^{}]+)/g;
const allMatches = [...input.matchAll(regex)];

console.log(allMatches);
/*
输出示例(部分):
[
  ["{{ text1  }}", "text1", undefined, index: 0, input: "{{ text1  }} 123 ...", groups: undefined],
  [" 123 ", undefined, " 123 ", index: 14, input: "{{ text1  }} 123 ...", groups: undefined],
  ...
]
*/

从输出中可以看出,每个匹配结果都包含 match[0](完整匹配字符串)以及根据匹配模式不同而存在的 match[1](捕获组1,模板内容)或 match[2](捕获组2,非模板内容)。

后处理匹配结果:实现精确提取

仅仅获取匹配结果还不够,我们需要根据捕获组来精确地处理每个匹配项,以达到我们期望的输出格式:

  • 对于 {{...}} 模板,我们需要将其内部的变量名去除首尾空格,然后重新构建为 {{变量名}} 的形式。
  • 对于非模板的普通文本,我们需要保留其原始形式,包括其内部和首尾的空格。

这可以通过对 matchAll 的结果进行 map 操作来实现:

const matches = [...input.matchAll(regex)].map(match => {
    if (match[1] !== undefined) { // 如果捕获组1有值,说明匹配到的是 {{...}} 模板
        // 提取模板内部内容并去除首尾空格,然后重新构建为 {{内容}} 格式
        return `{{${match[1].trim()}}}`;
    } else if (match[2] !== undefined) { // 如果捕获组2有值,说明匹配到的是非模板文本
        // 直接返回捕获到的非模板文本,保留其原始空格
        return match[2];
    }
    // 理论上,由于正则表达式的全面性,不会有未被任一捕获组捕获的情况。
    // 但作为健壮性考虑,可以返回完整匹配或抛出错误。
    return match[0];
}).filter(Boolean); // 过滤掉任何可能的空字符串,确保结果纯净。

filter(Boolean) 在此场景下虽然可能不是严格必需(因为我们的正则设计通常不会产生空字符串),但它是一种良好的实践,可以移除数组中所有“假值”(如null, undefined, 0, ""等),确保结果数组只包含有效字符串。

完整示例代码

将上述所有部分整合,我们可以得到一个完整的解决方案:

const input = `{{ text1  }} 123 {{text1}}{{text1}}  {{  text1}}134`;
// 定义正则表达式:
// 1. \{\{\s*([^}]+)\s*\}\} 匹配并捕获 {{ ... }} 形式的模板内容(捕获组1)
// 2. | 或
// 3. ([^{}]+) 匹配并捕获非 {{ 或 }} 的普通文本(捕获组2)
// /g 全局匹配
const regex = /\{\{\s*([^}]+)\s*\}\}|([^{}]+)/g;

// 使用 matchAll 获取所有匹配项,并进行后处理
const result = [...input.matchAll(regex)].map(match => {
    // 检查哪个捕获组匹配到了内容
    if (match[1] !== undefined) { // 如果是 {{...}} 模板
        // 提取模板内部的变量名,去除其首尾空格,然后重新封装为 {{变量名}}
        return `{{${match[1].trim()}}}`;
    } else if (match[2] !== undefined) { // 如果是非模板的普通文本
        // 直接返回原始文本,保留其所有空格
        return match[2];
    }
    // 理论上不会执行到这里,因为正则表达式覆盖了所有可能的情况
    return match[0];
}).filter(Boolean); // 过滤掉可能产生的空字符串(本例中通常不会产生)

console.log(result);
// 预期输出: ["{{text1}}"," 123 ","{{text1}}","{{text1}}","  ","{{text1}}","134"]

注意事项与最佳实践

  1. 正则表达式的灵活性: 捕获组 ([^}]+) 允许变量名包含除了 } 之外的任何字符。如果你的变量名有更严格的命名规范(例如,只允许字母、数字、下划线),你可以将 [^}]+ 替换为更具体的模式,如 ([\w\d_]+)。
  2. 性能考量: 对于非常长的字符串或需要频繁执行的场景,正则表达式的性能需要考虑。但对于大多数Web应用中的字符串解析任务,matchAll 结合合理的正则表达式通常是高效的。
  3. 错误处理: 上述代码假设输入字符串格式基本正确。如果输入可能包含不完整的 {{ 或 }}(例如 {{abc),当前正则表达式会将其作为普通文本处理。根据具体需求,可能需要更复杂的正则表达式或额外的逻辑来识别并处理这些错误格式。
  4. 替代方案: 对于更复杂的模板解析需求(例如嵌套模板、条件逻辑等),使用专门的模板引擎(如Handlebars, EJS, Vue/React的模板语法)会是更健壮和可维护的选择。但对于本教程中描述的简单提取任务,正则表达式是简洁而强大的工具
  5. trim() 的精确应用: 本教程的关键在于理解何时对匹配结果应用 trim()。我们只对从 {{...}} 内部捕获的变量名进行 trim(),以规范化模板标记;而对普通文本则不进行 trim(),以保留其原始格式,这正是为了满足题目中对输出格式的精确要求。

总结

通过巧妙地结合正则表达式的“或”操作符(|)和捕获组,以及 String.prototype.matchAll() 方法的强大功能,我们能够有效地解析复杂格式的字符串,并根据不同的匹配类型进行精细化的后处理。这种方法不仅能够准确地提取所需信息,还能灵活地保留或修改原始字符串的特定部分,是JavaScript中处理高级字符串解析任务的

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

554

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

477

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

551

2023.09.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

2

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Vue 教程
Vue 教程

共42课时 | 6.5万人学习

Vue3.x 工具篇--十天技能课堂
Vue3.x 工具篇--十天技能课堂

共26课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号