[发明专利]一种知识图谱构建方法在审
申请号: | 201910766428.X | 申请日: | 2019-08-19 |
公开(公告)号: | CN111061882A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 金耀初;何卫灵;刘华;张宏辉 | 申请(专利权)人: | 广州利科科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/284 |
代理公司: | 广州润禾知识产权代理事务所(普通合伙) 44446 | 代理人: | 凌衍芬;欧秋望 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 构建 方法 | ||
本发明涉及自然语言处理技术领域,更具体地,涉及一种知识图谱构建方法,包括:步骤S1:获取语料集;步骤S2:对语料集进行预处理;步骤S3:转化语料集并存入数据库;步骤S4:根据数据库构建知识图谱。本发明与现有的知识图谱构建方法相比,构建出来的知识图谱的质量更高。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种知识图谱构建方法。
背景技术
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。
自然语言处理(natural language processing,NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。
当今社会,随着信息技术的发展与互联网的普及,大数据、云计算、人工智能已成为当前学术界的热点课题。自然语言处理是人工智能中最为困难的问题之一,如何实现人机间的信息交流,智能地筛选、处理海量的数据是人工智能界、计算机科学和语言学界的技术突破重点。因为人类语言有其特殊性、复杂性,使机器理解人类语言是一项艰巨的任务。尤其在自然语言处理的领域里,机器理解中文远比理解英文复杂的多。因此,如何使机器更好地解析中文,处理中文已成为了人工智能领域中无法绕开的难题。
知识图谱是一种以自然语言处理(NLP)为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。实体通常指的是文本中具有特别意义或者指代性非常强的名词短语或者动词短语,通常包括人名、地名、机构名、时间、专有名词等。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。近来知识图谱在人工智能很多行业拥有成熟的应用,如搜索引擎、聊天机器人、智能医疗、智能硬件等。尽管知识图谱的应用如此广阔,但是当前的知识图谱构建方法并不成熟,仍存在需要人工构建、数据质量不高的缺点。因此,目前亟需一种构建更高质量知识图谱的方法。
发明内容
为了解决上述问题,本发明提供一种知识图谱构建方法,该方法可构建更高质量知识图谱。
本发明采取的技术方案是:
一种知识图谱构建方法,所述方法包括:
步骤S1:获取语料集;
步骤S2:对语料集进行预处理;
步骤S3:转化语料集并存入数据库;
步骤S4:根据数据库构建知识图谱。
语料集即语言材料的集合,语料是构成语料库的基本单元,为文本形式。本方案的语料从网上获取,具体获取方式为:选取目标网页,把网页定义为document格式,将所有的数据转化为文本,之后对转化为文本的网页进行遍历,获取里面所有的文本数据,最后建立元素组集element存储获取到的所有文本数据。转化为文本的网页不仅包含文字内容,还包含html的标签、注释等,而标签包含文字样式等信息。为了后续读取解析工作方便,元素组把html内容与html标签分开存储。获取语料集之后,将其进行预处理,使其的噪音减少。由于三元组对于数据库存储性能高,因此把预处理后的语料集转化为三元组,然后,存入数据库。最后根据数据库所存的数据构建知识图谱。本方案与现有的知识图谱构建方法相比,构建出来的知识图谱的质量更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州利科科技有限公司,未经广州利科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910766428.X/2.html,转载请声明来源钻瓜专利网。