如何构建一个系统？-Python教程-PHP中文网

实体识别：分块技术

分块语法的构建

树状图

IOB标记

开发和评估分块器

命名实体识别和信息提取

首页

后端开发

Python教程

如何构建一个系统？

PHP中文网

Jun 20, 2017 am 11:00 AM

nltk 信息学习文本笔记

如何构建一个系统，用于从非结构化的文本中提取结构化的信息和数据？哪些方法使用这类行为？哪些语料库适合这项工作？是否可以训练和评估模型？

信息提取，特别是结构化信息提取，可以类比数据库的记录。对应的关系绑定了对应的数据信息。针对自然语言这类非结构化的数据，为了获取对应关系，应该搜索实体对应的特殊关系，并且用字符串、元素等一些数据结构记录。

实体识别：分块技术

比如：We saw the yellow dog ，按照分块的思想，会将后三个词语分到NP中，而里面的三个词又分别对应 DT/JJ/NN；saw 分到VBD中；We 分到NP中。对于最后三个词语来说，NP就是组块（较大的集合）。为了做到这点，可以借助NLTK自带的分块语法，类似于正则表达式，来实现句子分块。

分块语法的构建

注意三点即可：

基本的分块：组块 :{组块下的子组块}（类似于："NP: {<DT>?<JJ>*<NN>}"这样的字符串）。而?*+保存了正则表达式的意义。

import nltk
sentence = [(&#39;the&#39;,&#39;DT&#39;),(&#39;little&#39;,&#39;JJ&#39;),(&#39;yellow&#39;,&#39;JJ&#39;),(&#39;dog&#39;,&#39;NN&#39;),(&#39;brak&#39;,&#39;VBD&#39;)]
grammer = "NP: {<DT>?<JJ>*<NN>}"cp = nltk.RegexpParser(grammer) #生成规则result = cp.parse(sentence) #进行分块print(result)

result.draw() #调用matplotlib库画出来登录后复制

可以为不包括再大块中的标识符序列定义一个缝隙：}<VBD|IN>+{

import nltk
sentence = [(&#39;the&#39;,&#39;DT&#39;),(&#39;little&#39;,&#39;JJ&#39;),(&#39;yellow&#39;,&#39;JJ&#39;),(&#39;dog&#39;,&#39;NN&#39;),(&#39;bark&#39;,&#39;VBD&#39;),(&#39;at&#39;,&#39;IN&#39;),(&#39;the&#39;,&#39;DT&#39;),(&#39;cat&#39;,&#39;NN&#39;)]
grammer = """NP:             {<DT>?<JJ>*<NN>}            }<VBD|NN>+{            """  #加缝隙，必须保存换行符cp = nltk.RegexpParser(grammer) #生成规则result = cp.parse(sentence) #进行分块print(result)登录后复制

可以递归式的调用，这符合语言结构中的递归嵌套。例如：VP: {<NP|PP|CLAUSE>*} PP:{<NN><VP>} 。此时，RegexpParser函数的参数loop即可以设置为2，多次循环，来防止遗漏。

树状图

如果调用print(type(result))查看类型就会发现，是 nltk.tree.Tree。从名字看出来这是一种树状结构。nltk.Tree 可以实现树状结构，并且支持拼接技术，提供结点的查询和树的绘制。

tree1 = nltk.Tree(&#39;NP&#39;,[&#39;Alick&#39;])print(tree1)
tree2 = nltk.Tree(&#39;N&#39;,[&#39;Alick&#39;,&#39;Rabbit&#39;])print(tree2)
tree3 = nltk.Tree(&#39;S&#39;,[tree1,tree2])print(tree3.label()) #查看树的结点tree3.draw()登录后复制

IOB标记

分别代表内部，外部，开始（就是英语单词的首字母）。对于上面讲的 NP，NN这样的分类，只需要在前面加上 I-/B-/O-即可。这样就能使规则外的集合被显式出来，类似上面的加缝隙。

开发和评估分块器

NLTK已经为我们提供了分块器，减少了手动构建规则。同时，也提供了已经分块好的内容，供我们自己构建规则时候进行参考。

#这段代码在python2下运行from nltk.corpus import conll2000print conll2000.chunked_sents(&#39;train.txt&#39;)[99] #查看已经分块的一个句子text = """   he /PRP/ B-NP   accepted /VBD/ B-VP   the DT B-NP   position NN I-NP   of IN B-PP   vice NN B-NP   chairman NN I-NP   of IN B-PP   Carlyle NNP B-NP   Group NNP I-NP   , , O   a DT B-NP   merchant NN I-NP   banking NN I-NP   concern NN I-NP   . . O"""result = nltk.chunk.conllstr2tree(text,chunk_types=[&#39;NP&#39;])登录后复制

对于之前自己定义的规则cp，可以使用cp.evaluate(conll2000.chunked_sents('train.txt')[99]) 来测试正确率。利用之前学过的Unigram标注器，可以进行名词短语分块，并且测试准确度

class UnigramChunker(nltk.ChunkParserI):"""        一元分块器，        该分块器可以从训练句子集中找出每个词性标注最有可能的分块标记，        然后使用这些信息进行分块    """def __init__(self, train_sents):"""            构造函数            :param train_sents: Tree对象列表        """train_data = []for sent in train_sents:# 将Tree对象转换为IOB标记列表[(word, tag, IOB-tag), ...]conlltags = nltk.chunk.tree2conlltags(sent)# 找出每个词性标注对应的IOB标记ti_list = [(t, i) for w, t, i in conlltags]
            train_data.append(ti_list)# 使用一元标注器进行训练self.__tagger = nltk.UnigramTagger(train_data)def parse(self, tokens):"""            对句子进行分块            :param tokens: 标注词性的单词列表            :return: Tree对象        """# 取出词性标注tags = [tag for (word, tag) in tokens]# 对词性标注进行分块标记ti_list = self.__tagger.tag(tags)# 取出IOB标记iob_tags = [iob_tag for (tag, iob_tag) in ti_list]# 组合成conll标记conlltags = [(word, pos, iob_tag) for ((word, pos), iob_tag) in zip(tokens, iob_tags)]return nltk.chunk.conlltags2tree(conlltags)
test_sents = conll2000.chunked_sents("test.txt", chunk_types=["NP"])
train_sents = conll2000.chunked_sents("train.txt", chunk_types=["NP"])

unigram_chunker = UnigramChunker(train_sents)print(unigram_chunker.evaluate(test_sents))登录后复制

命名实体识别和信息提取

命名实体：确切的名词短语，指特定类型的个体，如日期、人、组织等 。如果自己去许梿分类器肯定头大(ˉ▽￣～)~~。NLTK提供了一个训练好的分类器--nltk.ne_chunk(tagged_sent[,binary=False]) 。如果binary被设置为True，那么命名实体就只被标注为NE；否则标签会有点复杂。

sent = nltk.corpus.treebank.tagged_sents()[22]print(nltk.ne_chunk(sent,binary=True))登录后复制

如果命名实体被确定后，就可以实现关系抽取来提取信息。一种方法是：寻找所有的三元组(X,a,Y)。其中X和Y是命名实体，a是表示两者关系的字符串，示例如下：

#请在Python2下运行import re
IN = re.compile(r&#39;.*\bin\b(?!\b.+ing)&#39;)for doc in nltk.corpus.ieer.parsed_docs(&#39;NYT_19980315&#39;):for rel in nltk.sem.extract_rels(&#39;ORG&#39;,&#39;LOC&#39;,doc,corpus=&#39;ieer&#39;,pattern = IN):print nltk.sem.show_raw_rtuple(rel)登录后复制

以上是如何构建一个系统？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7570

CakePHP 教程

1386

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

108

显示更多

Related knowledge

小红书笔记怎么删除 Mar 21, 2024 pm 08:12 PM

小红书笔记怎么删除?在小红书APP中是可以编辑笔记的，多数的用户不知道小红书笔记如何的删除，接下来就是小编为用户带来的小红书笔记删除方法图文教程，感兴趣的用户快来一起看看吧！小红书使用教程小红书笔记怎么删除1、首先打开小红书APP进入到主页面，选择右下角【我】进入到专区;2、之后在我的专区，点击下图所示的笔记页面，选择要删除的笔记;3、进入到笔记页面，右上角【三个点】;4、最后下方会展开功能栏，点击【删除】即可完成。

小红书发布过的笔记不见了怎么办？它刚发的笔记搜不到的原因是什么？ Mar 21, 2024 pm 09:30 PM

作为一名小红书的用户，我们都曾遇到过发布过的笔记突然不见了的情况，这无疑让人感到困惑和担忧。在这种情况下，我们该怎么办呢？本文将围绕“小红书发布过的笔记不见了怎么办”这一主题，为你详细解答。一、小红书发布过的笔记不见了怎么办？首先，不要惊慌。如果你发现笔记不见了，保持冷静是关键，不要慌张。这可能是由于平台系统故障或操作失误引起的。检查发布记录很简单。只需打开小红书App，点击“我”→“发布”→“所有发布”，就可以查看自己的发布记录。在这里，你可以轻松找到之前发布的笔记。3.重新发布。如果找到了之

小红书怎么在笔记中添加商品链接小红书在笔记中添加商品链接教程 Mar 12, 2024 am 10:40 AM

　　小红书怎么在笔记中添加商品链接?在小红书这款app中用户不仅可以浏览各种内容还可以进行购物，所以这款app中关于购物推荐、好物分享的内容是非常多的，如果小伙伴在这款app也是一个达人的话，也可以分享一些购物经验，找到商家进行合作，在笔记中添加连接之类的，很多人都愿意使用这款app购物，因为不仅方便，而且有很多达人会进行一些推荐，可以一边浏览有趣内容，一边看看有没有适合自己的衣服商品。一起看看如何在笔记中添加商品链接吧!小红书笔记添加商品链接方法　　在手机桌面上打开app。　　在app首页点击

如何在Chrome和Edge的所有选项卡中搜索文本 Feb 19, 2024 am 11:30 AM

本教程向您展示了如何在Windows的Chrome或Edge中找到所有打开的标签页上的特定文本或短语。有没有办法在Chrome中所有打开的标签页上进行文本搜索？是的，您可以使用Chrome中的免费外部Web扩展在所有打开的标签上执行文本搜索，无需手动切换标签。一些扩展如TabSearch和Ctrl-FPlus可以帮助您轻松实现这一功能。如何在GoogleChrome的所有选项卡中搜索文本？Ctrl-FPlus是一个免费的扩展，它方便用户在浏览器窗口的所有选项卡中搜索特定的单词、短语或文本。这个扩

揭秘C语言的吸引力: 发掘程序员的潜质 Feb 24, 2024 pm 11:21 PM

学习C语言的魅力：解锁程序员的潜力随着科技的不断发展，计算机编程已经成为了一个备受关注的领域。在众多编程语言中，C语言一直以来都备受程序员的喜爱。它的简单、高效以及广泛应用的特点，使得学习C语言成为了许多人进入编程领域的第一步。本文将讨论学习C语言的魅力，以及如何通过学习C语言来解锁程序员的潜力。首先，学习C语言的魅力在于其简洁性。相比其他编程语言而言，C语

一起学习word根号输入办法 Mar 19, 2024 pm 08:52 PM

在word中编辑文字内容时，有时会需要输入公式符号。有的小伙们不知道在word根号输入的方法，小面就让小编跟小伙伴们一起分享下word根号输入的方法教程。希望对小伙伴们有所帮助。首先，打开电脑上的Word软件，然后打开要编辑的文件，并将光标移动到需要插入根号的位置，参考下方的图片示例。2.选择【插入】，再选择符号里的【公式】。如下方的图片红色圈中部分内容所示：3.接着选择下方的【插入新公式】。如下方的图片红色圈中部分内容所示：4.选择【根式】，再选择合适的根号。如下方的图片红色圈中部分内容所示：

Pygame入门指南：全面安装和配置教程 Feb 19, 2024 pm 10:10 PM

从零开始学习Pygame：完整的安装和配置教程，需要具体代码示例引言：Pygame是一个使用Python编程语言开发的开源游戏开发库，它提供了丰富的功能和工具，使得开发者可以轻松创建各种类型的游戏。本文将带您从零开始学习Pygame，并提供完整的安装和配置教程，以及具体的代码示例，让您快速入门。第一部分：安装Python和Pygame首先，确保您的计算机上已

【Python NLTK】教程：轻松入门，玩转自然语言处理 Feb 25, 2024 am 10:13 AM

1.NLTK简介NLTK是python编程语言的一个自然语言处理工具包，由StevenBird和EdwardLoper于2001年创建。NLTK提供了广泛的文本处理工具，包括文本预处理、分词、词性标注、句法分析、语义分析等，可以帮助开发者轻松地处理自然语言数据。2.NLTK安装NLTK可以通过以下命令安装：fromnltk.tokenizeimportWord_tokenizetext="Hello,world!Thisisasampletext."tokens=word_tokenize(te

See all articles

如何构建一个系统？

实体识别：分块技术

分块语法的构建

树状图

IOB标记

开发和评估分块器

命名实体识别和信息提取

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题