[发明专利]一种知识图谱构建方法有效
申请号: | 201910721967.1 | 申请日: | 2019-08-06 |
公开(公告)号: | CN112347263B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 陈成才 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 构建 方法 | ||
本发明提供了一种知识图谱构建方法,包括:对待处理的句子进行分词,得到多个单独词;识别所述多个单独词中的实体,得到两个一组的实体对;对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词‑位置向量;根据所述句向量提取所述句子多个方面的表示特征;根据所述多个方面的表示特征得到一个融合特征;根据所述融合特征预测所述实体对的实体关系;根据所述实体对和对应的实体关系构建知识图谱。本发明充分体现了词组与实体对之间的关联性,并从多个方面、多角度地挖掘句子的特征,能够更加全面、准确地进行实体关系预测,进而可以更加完备地构建知识图谱。
技术领域
本发明涉及自然语言处理领域,特别涉及一种知识图谱的构建方法。
背景技术
随着信息时代的飞速发展,在互联网上拥有的信息资源越来越丰富,信息数据规模越来越巨大,表现形式也越来越多样。但是,对于海量的信息数据资源来说,其中的绝大部分都只能被人类所理解,机器对于这些信息的理解仍十分困难,特别是数量庞大的文本数据,自然语言理解也一直是非常热门的研究领域。
为了能够帮助机器更好地理解文本数据,知识图谱技术应运而生。知识图谱本质上是一种语义网络,由代表实体(Entity)的结点和代表实体之间关系的边构成。知识图谱从“关系”出发,具有更全面的实体覆盖率和更复杂的语义关系网,在智能搜索、智能问答等领域具有很好的应用前景。但是,在现有的知识图谱构建过程中,实体之间的关系大多需要人工构建或者依赖固定的逻辑,工作量巨大且难以普遍适用,而且对于实体来说,表示的角度比较单一化,使得最后建立的关系不够准确,进而影响了实际的构建效果。
发明内容
为了解决上述问题,本发明提出一种知识图谱的构建方法,以解决实体关系建立复杂且不够准确的问题。具体内容包括:
一种知识图谱构建方法,包括以下步骤:
对待处理的句子进行分词,得到多个单独词;
识别所述多个单独词中的实体,将所述实体两个一组组成实体对;
对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词-位置向量,所述单独词的词-位置向量包括所述单独词的词向量,以及所述单独词与所述实体对的相对位置向量;
根据所述句向量提取所述句子多个方面的表示特征;
根据所述多个方面的表示特征得到一个融合特征,所述融合特征包括不少于一个特征向量;
根据所述融合特征预测所述实体对的实体关系;
根据所述实体对和对应的实体关系构建知识图谱。
可选地,在所述根据所述多个方面的表示特征得到一个融合特征之后,所述根据所述融合特征预测所述实体对的实体关系之前,还包括步骤:
对所述融合特征进行特征筛选,屏蔽其中的噪声特征。
可选地,所述对所述融合特征进行特征筛选,屏蔽其中的噪声特征包括:
对所述融合特征中包括的所述特征向量进行全局平均池化,得到所述特征向量分别对应的聚合信息;
利用两个全连接网络对所述聚合信息进行筛选,得到所述特征向量对应的筛选参数;
根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述噪声特征屏蔽,更新所述特征向量;
根据所述更新后的特征向量,更新所述融合特征。
本发明还提供了一种知识图谱构建装置,具体包括:
句子分词模块,所述句子分词模块用于对待处理的句子进行分词,得到多个单独词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721967.1/2.html,转载请声明来源钻瓜专利网。