JavaScript正则表达式是RegExp对象,非字符串或语法糖;创建方式有字面量和new RegExp()两种,后者适合动态模式但需双写反斜杠;test()返回布尔值,exec()返回匹配数组并受g标志影响;match()加g会丢失捕获组;^$默认匹配全文起止,m标志下匹配每行,\b依赖\w定义单词边界,中文场景需用负向断言;替换需加g才全局生效;避免循环中重复创建正则。

JavaScript 正则表达式本质是 RegExp 对象
它不是字符串,也不是语法糖,而是一个有状态、可执行的内置对象。创建方式有两种:new RegExp('pattern', 'flags') 或字面量 /pattern/flags。区别在于:字面量在代码解析时就编译,适合静态模式;new RegExp() 在运行时构造,适合拼接动态字符串(比如用户输入的搜索词),但要注意反斜杠要双写 —— new RegExp('\\d+') 才等价于 /\d+/。
test() 和 exec() 是最常用的两个匹配方法
test() 返回布尔值,适合做条件判断;exec() 返回匹配结果数组(含 index、input 等属性),适合提取内容。全局标志 g 会影响 exec() 的行为:开启后多次调用会“记住”上一次位置,不重置 lastIndex;没开则每次都是从头开始。
const re = /a(\d)/g;
console.log(re.exec('a1b a2c')); // ['a1', '1']
console.log(re.exec('a1b a2c')); // ['a2', '2']
console.log(re.exec('a1b a2c')); // null(已到末尾)
常见错误:把 match() 当万能方法用。它在非全局模式下返回的数组和 exec() 类似,但开了 g 就只返回纯匹配字符串数组,丢掉捕获组信息 —— 想取分组,别用 match() 加 g。
正则里的 \^ \$ 和 \b 容易被误用
^ 和 $ 默认匹配整个字符串的开头和结尾,但在多行模式 m 下,会变成匹配每行的起止。而 \b 是单词边界,依赖 \w(即 [a-zA-Z0-9_])定义“词”,所以 \bcat\b 能匹配 "the cat sat",但不会匹配 "category" 或 "ca_t"(下划线属于 \w,不构成边界)。
立即学习“Java免费学习笔记(深入)”;
- 想精确匹配完整字符串?用
^...$,别只靠test() - 想匹配独立单词但字符串含中文?
\b失效,改用(?(负向断言) - 替换时忘记
g标志?str.replace(/a/, 'b')只换第一个a
性能与安全:别在循环里反复创建正则字面量
看似无害的 for (let i = 0; i ,其实每次迭代都新建一个 RegExp 实例。V8 引擎虽会缓存字面量,但规范不保证,且可读性差。更稳的做法是提成常量:
const DIGIT_ONLY = /^\d+$/;
for (let i = 0; i < arr.length; i++) {
if (DIGIT_ONLY.test(arr[i])) { ... }
}
另外,来自用户输入的正则模式必须严格校验或用 try/catch 包裹 —— new RegExp(userInput) 可能抛出 SyntaxError,且恶意模式(如 /(a+)+b/)可能引发回溯爆炸,阻塞主线程。
真正难的不是写出能跑的正则,而是预判它在边界输入下的行为、性能和可维护性。写完先用极端 case 测:空字符串、超长字符串、嵌套括号、Unicode 字符、换行符 —— 这些地方最容易翻车。











