实现语法高亮需通过词法分析将代码分解为token并用不同样式标记,采用双层结构(透明textarea+高亮显示层)实现可输入且着色的编辑器,结合按行解析、防抖与虚拟滚动优化性能,并通过语言配置规则支持多语言扩展。

要实现一个支持语法高亮的代码编辑器核心功能,关键在于实时解析用户输入的代码,并将不同语法成分(如关键字、字符串、注释等)用不同的样式标记。这通常通过词法分析和 DOM 或 canvas 渲染结合 CSS 样式来完成。
词法分析:识别语法成分
语法高亮的基础是词法分析(Lexical Analysis),也就是把代码拆分成一个个有语义的“词法单元”(token),比如关键字、标识符、字符串、注释、操作符等。
- 为每种语言定义一组匹配规则,例如 JavaScript 中 const、function 是关键字,"..." 是字符串,//... 是单行注释。
- 逐行扫描文本,用正则匹配每个 token 类型,并记录其位置和类型。
- 可以使用状态机处理跨行结构,比如多行字符串或注释。
渲染高亮文本:双层 textarea 技术
浏览器原生的 textarea 不支持内联样式,所以不能直接给某几个字符上色。常用方案是使用“双层编辑器”结构:
- 底层是一个 pre + code 或带 contenteditable 的 div,用于显示带颜色的高亮代码。
- 上层是一个透明的、完全对齐的 textarea,负责获取用户的键盘输入和光标定位。
- 用户输入时,同步内容到底层容器,通过 JavaScript 解析并插入带有 class 的 span 标签实现着色。
关键是保持两层内容的行列位置严格对齐,包括空格、换行、字体、字号、行高都必须一致。
性能优化:增量更新与防抖解析
每次按键都重新解析整篇代码会很慢,尤其文件较大时。可以优化:
- 按行解析:只重新解析当前修改的那一行,必要时向上向下影响相邻行(比如多行字符串结束位置变了)。
- 防抖(debounce):延迟语法分析,避免频繁触发,比如用户停顿 100ms 后再执行高亮。
- 虚拟滚动:对于长文件,只渲染可视区域内的行,减少 DOM 节点数量。
扩展性:支持多种语言
可以把每种语言的高亮规则抽象成独立配置:
- 定义一个语言配置对象,包含 keywords、strings、comments、regex 等正则规则。
- 运行时根据当前语言加载对应规则,复用解析逻辑。
- 类似 Prism.js 或 Highlight.js 的设计思路,但集成到编辑器中实时生效。
基本上就这些。语法高亮不复杂,但要做好对齐、性能和语言支持需要细致处理。主流编辑器如 Monaco(VS Code 内核)用了更复杂的文本模型和语法树,但基础原理一致。









