近两年来,随着互联网的快速发展,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。在这个背景下,众多搜索引擎公司纷纷以此为基础构建知识图谱,从而拉开了语义搜索的序幕。
在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。
Protege软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。相比与其他的本体构建工具而言,Protégé最大的好处在于支持中文,在插件上,用Graphviz可实现中文关系的显示。为了方便大家,灵玖软件工程团队在吸收protege原版的基础上,对protege汉化后又对webprotege进行了汉化,并成功上线,使大家可以在线进行知识图谱语义本体的自动构建。成功升级的protege汉化版和webprotege汉化版都将对外免费使用。
知识图谱语义本体已经成为当今在大数据应用领域共同关注的前沿课题,目前被广泛应用于自然科学与人文科学领域。相比较以往的可视化技术存在一系列缺点,新兴的知识图谱可将某个学科领域或者知识单元间错综复杂的交互关系用节点与链接等现代可视化大数据技术进行处理与展示,使人们可以清晰直观的了解某个学科或者领域发展进程中的知识结构、研究趋势等。运用知识图谱能够有效的从众多数据中获取知识,也是目前人们从浩如烟海的数据中获取知识的一种有效方法。
灵玖软件作为大数据搜索挖掘分析技术领域的领导者,在技术方面不断精进,拥有完整的大数据技术链条,protege的汉化开发并成功实践运用,标志着灵玖软件在知识图谱语义本体建设方面取得重大进展。