随着海量信息的不断涌现,人们利用传统的阅读和检索方式理解大量、复杂信息的难度日益增大。为此,各种在海量的文字、数据信息中发现知识的方法纷纷涌现,而文本可视化就是这众多技术的重要组成部分。文本可视化是通过对文本资源的分析,发现特定信息,并计算机技术将其以图形化方式呈现来的一种方法,是信息可视化的重要分支之一。文本可视化的目的是以丰富的图形或图像揭示以文本为载体的信息内容。
文本的可视化技术可以高度概括并且形象化表示文本信息中的核心内容,方便人们快速的理解和吸收文本中的核心思想。更进一步的,文本可视化技术亦可显示出文本中的隐含内容和隐含关系,为基于海量文本知识发现提供更好的支持。
传统的统计图方法只能呈现基本的信息,面对复杂或大规模异型数据集,比如商业分析、财务报表、人口状况分布、媒体效果反馈、用户行为数据等,数据可视化面临处理的状况会复杂很多,可能要经历包括数据采集、 数据分析、数据治理、数据管理、数据挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,是立体的、二维的、动态的、实时的还是允许交互的。最终由工程师创建对应的可视化算法及技术实现手段,包括建模方法、处理大规模数据的体系架构、交互技术、放大缩小方法等。动画工程师考虑表面材质、动画渲染方法等,交互设计师也会介入进行用户交互行为模式的设计。所以一个数据可视化作品或项目的创建,需要多领域专业人士的协同工作才能取得成功。因此,数据的可视化在进行大数据的分析工作时应当被研究工作者加以重视并进一步提升。
大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中,数据可视化已经遍布我们生活的每一个角落,毕竟普通用户往往更关心结果的展示。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细***信息,方便进行下一步的数据挖掘与图谱构建。
数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。同时NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。