目录
问题内容
解决方法
首页 后端开发 Golang 分词表示意外的标记

分词表示意外的标记

Feb 09, 2024 am 08:48 AM

分词表示意外的标记

php小编小新在这里为大家介绍一种非常有趣的技术——分词表示意外的标记。分词是自然语言处理中的一个重要任务,它将一段文本按照一定的规则进行切分,得到一系列的词语。而在分词过程中,我们有时会遇到一些特殊的情况,比如在某些词语中出现了意外的标记,这可能会对后续的处理造成困扰。因此,研究如何表示和处理这种意外的标记就变得非常重要。在本文中,我们将介绍一些常见的意外标记,并给出相应的解决方案,希望能对大家有所帮助。

问题内容

我正在玩一个分词来学习如何解析,但我无法确定为什么这是意外的。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

// nolint: golint, dupl

package main

 

import (

    "fmt"

    "io"

 

    "github.com/alecthomas/participle/v2"

    "github.com/alecthomas/participle/v2/lexer"

)

 

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{

    {"comment", `^#[^\n]*`},

    {"ident", `^\w+`},

    {"int", `\d+`},

    {"string", `("(\\"|[^"])*"|\s+)`},

    {"eol", `[\n\r]+`},

    {"whitespace", `[ \t]+`},

})

 

type htaccess struct {

    directives []*directive `@@*`

}

 

type directive struct {

    pos lexer.position

 

    errordocument *errordocument `@@`

}

 

type errordocument struct {

    code int    `"errordocument" @int`

    path string `@string`

}

 

var htaccessparser = participle.mustbuild[htaccess](

    participle.lexer(htaccesslexer),

    participle.caseinsensitive("ident"),

    participle.unquote("string"),

    participle.elide("whitespace"),

)

 

func parse(r io.reader) (*htaccess, error) {

    program, err := htaccessparser.parse("", r)

    if err != nil {

        return nil, err

    }

 

    return program, nil

}

 

func main() {

    v, err := htaccessparser.parsestring("", `errordocument 403 test`)

 

    if err != nil {

        panic(err)

    }

 

    fmt.println(v)

}

登录后复制

据我所知,这似乎是正确的,我期望 403 在那里,但我不确定为什么它不识别它。

编辑: 我将词法分析器更改为:

1

2

3

4

5

6

7

var htaccessLexer = lexer.MustSimple([]lexer.SimpleRule{

    {"dir", `^\w+`},

    {"int", `\d+`},

    {"str", `("(\\"|[^"])*"|\S+)`},

    {"EOL", `[\n\r]+`},

    {"whitespace", `\s+`},

})

登录后复制

错误消失了,但它仍然打印一个空数组,不知道为什么。我也不确定为什么对词法分析器使用不同的值可以修复它。

解决方法

我相信我发现了问题,这是顺序,ident 通过 \w 标签在我的词法分析器中查找数字,因此这导致我的整数被标记为 ident。

我发现我必须将 quotedstrings 和 unquotedstrings 分开,否则未加引号的字符串会获取整数。或者,我可以确保它只获取非数字值,但这会错过 stringwithnum2 之类的东西

这是我的解决方案

1

2

3

4

5

6

7

8

9

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{

    {"comment", `(?i)#[^\n]*`},

    {"quotedstring", `"(\\"|[^"])*"`},

    {"number", `[-+]?(\d*\.)?\d+`},

    {"unquotedstring", `[^ \t]+`},

    {"ident", `^[a-za-z_]`},

    {"eol", `[\n\r]+`},

    {"whitespace", `[ \t]+`},

})

登录后复制

1

2

3

4

5

6

type ErrorDocument struct {

    Pos lexer.Position

 

    Code int    `"ErrorDocument" @Number`

    Path string `(@QuotedString | @UnQuotedString)`

}

登录后复制

这解决了我的问题,因为它现在查找带引号的字符串,然后查找数字,然后查找不带引号的字符串。

以上是分词表示意外的标记的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Go语言包导入:带下划线和不带下划线的区别是什么? Go语言包导入:带下划线和不带下划线的区别是什么? Mar 03, 2025 pm 05:17 PM

本文解释了GO的软件包导入机制:命名imports(例如导入“ fmt”)和空白导入(例如导入_ fmt; fmt;)。 命名导入使包装内容可访问,而空白导入仅执行t

Go语言中如何将MySQL查询结果List转换为自定义结构体切片? Go语言中如何将MySQL查询结果List转换为自定义结构体切片? Mar 03, 2025 pm 05:18 PM

本文详细介绍了MySQL查询结果的有效转换为GO结构切片。 它强调使用数据库/SQL的扫描方法来最佳性能,避免手动解析。 使用DB标签和Robus的结构现场映射的最佳实践

Beego框架中NewFlash()函数如何实现页面间短暂信息传递? Beego框架中NewFlash()函数如何实现页面间短暂信息传递? Mar 03, 2025 pm 05:22 PM

本文解释了Beego的NewFlash()函数,用于Web应用程序中的页间数据传输。 它专注于使用newflash()在控制器之间显示临时消息(成功,错误,警告),并利用会话机制。 Lima

如何定义GO中仿制药的自定义类型约束? 如何定义GO中仿制药的自定义类型约束? Mar 10, 2025 pm 03:20 PM

本文探讨了GO的仿制药自定义类型约束。 它详细介绍了界面如何定义通用功能的最低类型要求,从而改善了类型的安全性和代码可重复使用性。 本文还讨论了局限性和最佳实践

如何编写模拟对象和存根以进行测试? 如何编写模拟对象和存根以进行测试? Mar 10, 2025 pm 05:38 PM

本文演示了创建模拟和存根进行单元测试。 它强调使用接口,提供模拟实现的示例,并讨论最佳实践,例如保持模拟集中并使用断言库。 文章

Go语言如何便捷地写入文件? Go语言如何便捷地写入文件? Mar 03, 2025 pm 05:15 PM

本文详细介绍了在GO中详细介绍有效的文件,将OS.WriteFile(适用于小文件)与OS.openfile和缓冲写入(最佳大型文件)进行比较。 它强调了使用延迟并检查特定错误的可靠错误处理。

您如何在GO中编写单元测试? 您如何在GO中编写单元测试? Mar 21, 2025 pm 06:34 PM

本文讨论了GO中的编写单元测试,涵盖了最佳实践,模拟技术和有效测试管理的工具。

如何使用跟踪工具了解GO应用程序的执行流? 如何使用跟踪工具了解GO应用程序的执行流? Mar 10, 2025 pm 05:36 PM

本文使用跟踪工具探讨了GO应用程序执行流。 它讨论了手册和自动仪器技术,比较诸如Jaeger,Zipkin和Opentelemetry之类的工具,并突出显示有效的数据可视化

See all articles