Blogger Information
Blog 43
fans 0
comment 0
visits 35413
Popular Tutorials
More>
Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template
NLPIR智能技术结合汉语特色运用语义识别进行挖掘
#小耗子老公#的博客
Original
1123 people have browsed it

  语言是由语音形式、语义内容、结构关系三个方面构成的统一体,三个方面缺一不可,互相作用,构成了语言。语音是语言的形式部分,词汇是语言的意义部分,语法是语言单位的关系部分,说的是符号与符号怎样组合的问题。三个部分在语言中的作用,我们可以这样简单来表述:没有语音形式,语言就无法存在,没有词汇的内容意义,语言就是一个 毫无作用的空壳,没有语法,语言就是一盘杂乱而毫无章法的散沙。

  中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。

  中文信息处理的特点是与西文信息处理相比较而言的,特点和任务是相互联系的。下面从文字、词汇、语音、语法以及软硬件系统等方面介绍一下中文信息处理的特点:

  (一)大字符集

  英文等西方语言的书写符号使用的是字母表式文字符号系统,字母数量较少。一种文字,包括大小写、数字及各种标点符号等,总共不过几十个,属于“小字符集”。例如:拉丁字母符号有26个;斯拉夫字母有33个等等;汉字属于“大字符集”:常用汉字3500个,通用汉字7000个,历史累积汉字多达6万。

  (二)编码方案众多

  使用字母数字键盘输入汉字信息,必须通过汉字编码。 因为汉字是形音义的统一体,编码时所采用的信息类型不同,会有不同的编码规则和方案。因此,无论从编码的角度,还是从使用者的角度,都面临多样化的选择。

  (三)形体多样,结构复杂 :一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、,存在多种笔形变体。汉字结构层叠错落,笔画、字根、偏旁、部首、部件、字元,见仁见智,难以统一,这些汉字字库的研制以及字形的标准化都带来了相当打的困难。

  (四)汉字方言分歧严重:现代汉语有七大方言区,每个方言区内又有次方言区,次方言区下还有不同的方言点。普通话普及应用水平远未达到语音识别、人机对话所要求的规范化和标准化的程度。因此,方言语音分歧成为语音信息处理的瓶颈。

  (五)同音现象突出 :现代汉语共有4125个不标调音节,按《基本字符集》6763个汉字计算,每个音节约有16.4个同音字;如按《汉语大字典》54678字计算,每个音节的同音字平均达到132.7个。

  (六)书面含有没有分词标志:西方采用拼音文字,书面上词与词之间用空格加以分隔,因此很容易进行词汇的统计分析和认知处理。

  (七)汉语没有形态:汉语的词无论冲当什么成分,构成什么关系,词形本身没有任何变化,只有依靠虚词、语序进行语法分析,不利于计算机的处理。

  (八)词的兼类与活用复杂:词类划分不一,存在大量“兼类”。

  (九)语法规则多有例外:词语搭配缺乏规范化的约束,人们习惯于意会而不注重形式标志的规则。

  (十)歧义现象突出:词汇歧义本来是语言中的一个比较普遍的现象。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

  NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

  随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的***。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。


Statement of this Website
The copyright of this blog article belongs to the blogger. Please specify the address when reprinting! If there is any infringement or violation of the law, please contact admin@php.cn Report processing!
All comments Speak rationally on civilized internet, please comply with News Comment Service Agreement
0 comments
Author's latest blog post