随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。Web信息抽取技术是随着互联网技术的发展、网页信息的扩充而产生,从手工到半自动再到全自动的技术完善使Web数据抽取技术成为大数据分析的主要技术。
数据抽取(Web data mining),是指从信息中取得大量的有利用价值的数字化信息。主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和观点挖掘(Opinion mining)等。
互联网的迅速发展,出现了大量的半结构化文本信息资 料,典型的是网页资源。对这些信息的抽取需要有从这种半结构化网页抽取有关信息的挖掘方法。在挖掘方法中,当系统从半结构化的网页内容中抽取具有层次结构的信息内容时,如果信息为英文或数字,则容易得多。研究理论已经很成熟了,但是如果信息为中文,则复杂得多,本文把语义分析技术应用到该信息抽取过程中,进一步增加了信息抽取的准确度。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR语义智能平台KGB知识图谱引擎是基于汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。KGB知识图谱引擎核心技术与特色:
1、 KGB知识抽取
KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。
KGB知识图谱引擎可以定义不同的动作,增加、删除、修改、抽取等等。每一类动作还能自定义各类后处理程序。
2 、语义智能分析
NLPIR大数据语义智能分析针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。
NLPIR大数据语义智能分析十三大功能:精准采集、文档抽取、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索与编码转换。
3 、语义精准搜索
JZSearch大数据语义精准搜索引擎:是灵玖软件联合中科院与北理工的信息检索专家,针对大数据垂直搜索需求的全文智能检索引擎,融合了自然语言理解、网络搜索和文本挖掘的技术,通过人机互动、深度机器学习后具有一定的语义推理能力,是结合了人工智能技术的新一代搜索引擎,具有专业精准、高扩展性和高通用性的特点。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的***。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。