分词表示意外的标记

WBOY

发布时间：2024-02-09 08:48:20

1281人浏览过

来源于stackoverflow

转载

分词表示意外的标记

php小编小新在这里为大家介绍一种非常有趣的技术——分词表示意外的标记。分词是自然语言处理中的一个重要任务，它将一段文本按照一定的规则进行切分，得到一系列的词语。而在分词过程中，我们有时会遇到一些特殊的情况，比如在某些词语中出现了意外的标记，这可能会对后续的处理造成困扰。因此，研究如何表示和处理这种意外的标记就变得非常重要。在本文中，我们将介绍一些常见的意外标记，并给出相应的解决方案，希望能对大家有所帮助。

问题内容

我正在玩一个分词来学习如何解析，但我无法确定为什么这是意外的。

// nolint: golint, dupl
package main

import (
    "fmt"
    "io"

    "github.com/alecthomas/participle/v2"
    "github.com/alecthomas/participle/v2/lexer"
)

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{
    {"comment", `^#[^\n]*`},
    {"ident", `^\w+`},
    {"int", `\d+`},
    {"string", `("(\\"|[^"])*"|\s+)`},
    {"eol", `[\n\r]+`},
    {"whitespace", `[ \t]+`},
})

type htaccess struct {
    directives []*directive `@@*`
}

type directive struct {
    pos lexer.position

    errordocument *errordocument `@@`
}

type errordocument struct {
    code int    `"errordocument" @int`
    path string `@string`
}

var htaccessparser = participle.mustbuild[htaccess](
    participle.lexer(htaccesslexer),
    participle.caseinsensitive("ident"),
    participle.unquote("string"),
    participle.elide("whitespace"),
)

func parse(r io.reader) (*htaccess, error) {
    program, err := htaccessparser.parse("", r)
    if err != nil {
        return nil, err
    }

    return program, nil
}

func main() {
    v, err := htaccessparser.parsestring("", `errordocument 403 test`)

    if err != nil {
        panic(err)
    }

    fmt.println(v)
}

据我所知，这似乎是正确的，我期望 403 在那里，但我不确定为什么它不识别它。

编辑：我将词法分析器更改为：

var htaccessLexer = lexer.MustSimple([]lexer.SimpleRule{
    {"dir", `^\w+`},
    {"int", `\d+`},
    {"str", `("(\\"|[^"])*"|\S+)`},
    {"EOL", `[\n\r]+`},
    {"whitespace", `\s+`},
})

错误消失了，但它仍然打印一个空数组，不知道为什么。我也不确定为什么对词法分析器使用不同的值可以修复它。

解决方法

我相信我发现了问题，这是顺序，ident 通过 \w 标签在我的词法分析器中查找数字，因此这导致我的整数被标记为 ident。

启昌企业网站管理系统1.3

注意：请将此程序放在网站根目录下运行。若没有IIS，请直接运行根目录下的测试.exe 进行本地测试。基本功能表基本设置：后台可修改联系方式,网站信息。管理员：可新增管理员。自定义导航：新增修改导航菜单、菜单排序等。单页管理：单页面新增关键词和描述等。新闻增加：新闻可设置标题、新闻分类、添加内容等。新闻管理：可分类查看新闻、修改新闻、删除新闻等。产品管理：产品增加二级分类，产品略缩图、产品

下载

我发现我必须将 quotedstrings 和 unquotedstrings 分开，否则未加引号的字符串会获取整数。或者，我可以确保它只获取非数字值，但这会错过 stringwithnum2 之类的东西

这是我的解决方案

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{
    {"comment", `(?i)#[^\n]*`},
    {"quotedstring", `"(\\"|[^"])*"`},
    {"number", `[-+]?(\d*\.)?\d+`},
    {"unquotedstring", `[^ \t]+`},
    {"ident", `^[a-za-z_]`},
    {"eol", `[\n\r]+`},
    {"whitespace", `[ \t]+`},
})

type ErrorDocument struct {
    Pos lexer.Position

    Code int    `"ErrorDocument" @Number`
    Path string `(@QuotedString | @UnQuotedString)`
}

这解决了我的问题，因为它现在查找带引号的字符串，然后查找数字，然后查找不带引号的字符串。

相关标签:

php 字符串

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在 Gorm 中实现与值数组的关系下一篇：将 YAML 解组为复杂对象，可以是结构体或字符串

作者最新文章

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

微信朋友圈怎么设置定时发布微信朋友圈定时发送图文教程

2026-01-02 09:14

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2650

2023.09.01