首页 > 后端开发 > Golang > 正文

Golang如何使用 text/scanner 解析文本_Golang text/scanner 文本扫描与分析

P粉602998670
发布: 2025-11-13 21:47:02
原创
286人浏览过
text/scanner是Go标准库的轻量级词法分析工具,用于分词处理;通过Init设置源文本,Scan逐个读取token,结合fset.Position获取位置信息,支持自定义错误回调和跳过空白与注释,适用于解析表达式、配置文件等场景。

golang如何使用 text/scanner 解析文本_golang text/scanner 文本扫描与分析

在Go语言中,text/scanner标准库 go/scanner 提供的一个轻量级工具,用于对文本进行词法扫描(lexical scanning),适合编写简单的解析器、配置文件读取器或自定义脚本语言的前端处理。它不像完整的解析器生成器那样强大,但对于大多数需要逐词分析文本的场景已经足够高效且易于使用。

初始化 scanner 并设置源文本

要使用 text/scanner,先导入 "go/scanner" 包。虽然名字叫 "go/scanner",但它可以用于任意文本扫描,不局限于 Go 代码。

创建一个 scanner.Scanner 实例,并通过 Init 方法传入一个 io.Reader字节切片作为输入源。

package main
<p>import (
"fmt"
"strings"
"go/scanner"
"go/token"
)</p><p>func main() {
src := "x := 42 + y"
var s scanner.Scanner
fset := token.NewFileSet()                      // 用于记录位置信息
file := fset.AddFile("", fset.Base(), len(src)) // 创建文件对象
s.Init(file, []byte(src), nil, 0)</p><pre class="brush:php;toolbar:false;"><pre class="brush:php;toolbar:false;">for {
    tok := s.Scan()
    if tok == scanner.EOF {
        break
    }
    pos := fset.Position(s.Pos()) // 获取当前 token 的位置
    fmt.Printf("%s: %s\n", pos, scanner.TokenString(tok))
}
登录后复制

}

输出示例:

立即学习go语言免费学习笔记(深入)”;

1:1: IDENT
1:3: DEFINE
1:5: INT
1:8: ADD
1:10: IDENT
登录后复制

可以看到每个 token 的位置和类型被依次打印出来。

识别标识符与自定义处理

默认情况下,scanner 会将关键字、操作符、数字、字符串等识别为对应 token。如果想捕获标识符的具体内容,可以通过 s.TokenText() 获取原始文本。

for {
    tok := s.Scan()
    if tok == scanner.EOF {
        break
    }
    text := s.TokenText()
    switch tok {
    case scanner.IDENT:
        fmt.Printf("变量或关键字: %s\n", text)
    case scanner.INT:
        fmt.Printf("整数: %s\n", text)
    case '+', '-', '*', '/':
        fmt.Printf("运算符: %s\n", text)
    default:
        fmt.Printf("其他: %s\n", text)
    }
}
登录后复制

这样可以根据 token 类型做进一步处理,比如构建抽象语法树的节点,或者执行简单计算逻辑。

Symanto Text Insights
Symanto Text Insights

基于心理语言学分析的数据分析和用户洞察

Symanto Text Insights 60
查看详情 Symanto Text Insights

处理错误与跳过空白字符

scanner 支持错误回调机制,在遇到非法字符时调用指定函数。同时可以通过设置 Mode 来控制哪些 token 被忽略(如空格、注释)。

例如,只关注标识符和数字,忽略空格和换行:

s.Init(file, []byte(src), func(pos token.Position, msg string) {
    fmt.Printf("扫描错误: %s: %s\n", pos, msg)
}, scanner.SkipComments)
登录后复制

常用 Mode 标志包括:

  • scanner.ScanComments:返回注释作为 token
  • scanner.SkipComments:自动跳过注释
  • scanner.GoTokens:仅识别 Go 语言关键字(可选)

实际应用场景举例:简易表达式解析

假设你要解析类似 a + b * 10 这样的算术表达式,可以用 scanner 拆分成 token 流,再配合简单的递归下降解析逻辑处理优先级。

扫描阶段只需完成“分词”任务:

tokens := []string{}
for {
    tok := s.Scan()
    if tok == scanner.EOF {
        break
    }
    tokens = append(tokens, s.TokenText())
}
fmt.Println("Token 列表:", tokens) // 输出: [a + b * 10]
登录后复制

后续可用或优先级表法进行求值,而扫描部分由 text/scanner 稳定支持。

基本上就这些。对于大多数轻量级文本分析需求,text/scanner 提供了简洁高效的接口,无需引入复杂依赖即可实现可靠的词法分析功能。

以上就是Golang如何使用 text/scanner 解析文本_Golang text/scanner 文本扫描与分析的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号