0

0

如何使用Golang构建简易Markdown解析器_Golang文本解析与HTML生成方法

P粉602998670

P粉602998670

发布时间:2025-12-31 06:53:08

|

561人浏览过

|

来源于php中文网

原创

不建议从零实现Markdown解析器,因CommonMark规范有20+边界case,goldmark等成熟库已稳定解决嵌套、缩进、HTML混合等问题;推荐用goldmark禁用非必要扩展并自定义渲染。

如何使用golang构建简易markdown解析器_golang文本解析与html生成方法

为什么不用现成库而自己写 Markdown 解析器

除非你只处理极简的 Markdown 片段(比如仅支持 **bold***italic*`code` 和换行),否则不建议从零实现完整解析器。CommonMark 规范有 20+ 边界 case,比如嵌套强调、列表缩进对齐、HTML 内联混合等,blackfridaygoldmark 已经稳定维护多年。自己写容易在 ***abc***> > blockquote 这类嵌套场景产出错误 HTML。

goldmark 实现可控的简易解析(推荐路径)

goldmark 是目前最符合 CommonMark v0.30 的 Go 库,扩展性好、无 CGO 依赖、API 清晰。所谓“简易”,是指禁用不需要的扩展(如表格、脚注),并自定义渲染规则。

  • 默认开启所有扩展,需显式关闭:用 WithExtensions() 传入空切片或按需排除
  • 关键控制点在 goldmark.WithRenderer() —— 你可以继承 html.Renderer 并重写 RenderTextRenderStrong 等方法,避免生成 而改用 或添加 class
  • 若只需纯文本提取(如预览摘要),直接用 parser.Parse(text) + 遍历 AST 节点,比生成 HTML 更轻量
package main

import ( "bytes" "github.com/yuin/goldmark" "github.com/yuin/goldmark/renderer/html" )

func main() { md := goldmark.New( goldmark.WithExtensions(), // 不传任何扩展 → 只支持基础语法 goldmark.WithRenderer(html.NewRenderer( html.WithUnsafe(), // 允许原始 HTML(如需保留 @@##@@) )), ) var buf bytes.Buffer err := md.Convert([]byte("# Hello\n\nworld"), &buf) if err != nil { panic(err) } println(buf.String()) // 输出:

Hello

\n

world

\n }

手动解析时如何安全处理 inline 强调标记

如果坚持手写(例如嵌入到已有 parser 中),重点不是匹配 *_,而是遵守「左边界」和「右边界」规则:强调符必须前后紧邻非空白/非标点字符,且成对出现、不跨行。常见错误是用正则 \*(.*?)\* 导致贪婪匹配或忽略嵌套。

立即学习go语言免费学习笔记(深入)”;

Cogram
Cogram

使用AI帮你做会议笔记,跟踪行动项目

下载
  • 正确做法:扫描字节流,记录未闭合的强调符位置(stack),遇到匹配符时检查顶类型是否一致、是否满足边界条件(如前一个字符不能是字母/数字)
  • 特别注意:**a**b** 应解析为 ab**,而非整个 a**b
  • Go 标准库 strings.Indexbytes.IndexByte 比正则更快,适合单次扫描

HTML 输出中容易被忽略的转义细节

Markdown 输入里的 &> 必须转义,但已由 goldmarkhtml.Renderer 自动处理;真正易漏的是自定义渲染器里手动拼接字符串时:

  • 不要直接 fmt.Sprintf("

    %s

    ", text)
    —— text 中的 & 会变成 & 双重编码
  • 应使用 html.EscapeString(text)(来自 net/html)确保只转义一次
  • 若允许用户输入 HTML 片段(如 `
    `),需配合 html.UnescapeString 或白名单过滤,不能简单放行

    复杂点永远在边界:AST 构建是否支持中断恢复、内联 HTML 是否影响后续解析、代码块缩进是否以 4 空格为唯一标准——这些在 goldmark 里已覆盖,自己写时最容易卡在某一个缩进差 1 空格的 case 上。

    如何使用Golang构建简易Markdown解析器_Golang文本解析与HTML生成方法

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

174

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

224

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

335

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

206

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

388

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

193

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

187

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

191

2025.06.17

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.7万人学习

AngularJS教程
AngularJS教程

共24课时 | 2.1万人学习

CSS教程
CSS教程

共754课时 | 17.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号