[发明专利]一种基于主题关键词过滤的知识图谱补全方法在审

专利信息
申请号: 201910245584.1 申请日: 2019-03-28
公开(公告)号: CN109977234A 公开(公告)日: 2019-07-05
发明(设计)人: 印桂生;张载熙;王红滨 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F16/36 分类号: G06F16/36;G06K9/62;G06N3/04;G06N3/08
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 刘冰
地址: 150001 黑龙江*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 主题关键词 图谱 过滤 描述文本 冗余 注意力机制 反应实体 描述信息 评分函数 文本过滤 文本内容 语义空间 语义联系 噪音信息 可用性 语义 三元组 集合
【说明书】:

一种基于主题关键词过滤的知识图谱补全方法,属于知识图谱领域。现有知识图谱补全方法的实体描述的文本内容复杂冗余,导致不能对某一特定的补全任务有针对性地进行补全的问题。一种基于主题关键词过滤的知识图谱补全方法,针对实体的描述信息复杂、冗余的问题,集合注意力机制。提出了主题关键词评分函数,对实体的描述进行评价提高了实体描述文本的可用性,解决描述文本存在大量噪音信息的问题。为了进一步反应实体描述与三元组的语义联系,通过主题语义空间模型提高实体描述的语义针对性。本发明通过文本过滤方法能够有针对性地完成特定补全任务。

技术领域

本发明涉及一种知识图谱补全方法,特别涉及基于实体描述中的主题关键词对实体描述文本过滤的知识图谱补全方法。

背景技术

知识图谱技术在智能问答和搜索领域应用广泛。目前,通过知识图谱技术构建的知识库的虽然规模宏大,但是其完整程度仍然不高。图谱中大部分的实体没有出生地信息、也没有国籍信息,对于一半的实体所包含的关系数量不超过5个,因而有必要对知识图谱进行补全。知识图谱图谱的方法可以分为两类:一类是非翻译型补全方法,另一类是翻译型补全方法。相较于非翻译型方法,采用翻译模型的算法涉及的计算参数少,算法复杂度低。目前的研究者已经考虑采用多源信息融合的方式对知识图谱补全。实际上,知识库中不仅包含由大量的实体和关系构成的三元组,还包含了大量的关于三元组中的实体的描述文本信息。已有的知识图谱方法已经考虑采用将翻译模型和实体的描述信息结合的方式对知识图谱进行补全。然而实体的描述来源广泛,大部分的文本内容抽取自百科和网页,文本的内容复杂冗余,并不能有针对性地对某一特定的补全任务进行补全。本发明就是在这样的背景下提出的。目前,对于知识图谱补全任务,无论国内还是国外,都在积极的研究,学者们提出了多种模型方法和相应的算法,它们针对不同的网络模型和具体的实际问题,各有特点。本发明在前人的模型和观点上提出了基于主题关键词过滤的知识图谱补全方法。

发明内容

本发明的目的是为了解决现有知识图谱补全方法的实体描述的文本内容复杂冗余,导致不能对某一特定的补全任务有针对性地进行补全的问题,而提出一种基于主题关键词过滤的知识图谱补全方法。

一种基于主题关键词过滤的知识图谱补全方法,所述的方法通过以下步骤实现:

步骤1:设定知识图谱G=(E,R,T);其中,E表示知识图谱实体集合,R表示知识图谱中关系集合,T表示待补全的三元组集合,

步骤2:将知识图谱G中不完整的三元组元素构成的集合设定为补全任务集合H,H中的元素分为(h,r,?)和(h,?,t)两种形式;其中,头实体h∈E,关系r∈R,尾实体t∈E;

步骤3:使用词向量工具对待补全的三元组集合T中的h和r进行训练,针对(h,r,?)任务得到h′和r′,针对(h,?,t)任务得到h′和t′;

步骤4:使用词向量工具对三元组集合T中实体的实体描述进行处理,得到主题计算词向量矩阵,包括:头实体描述的词向量矩阵De和尾实体描述的词向量矩阵Dt

步骤5:通过NMF模型分别对头实体h和尾实体t的实体描述进行处理,获取头实体和尾实体的主题向量sh和st

步骤6:利用步骤5获取的主题向量sh和st来计算主题语义空间s(sh,st):

其中,向量s为主题语义空间的法向量;

步骤7:获取主题计算词向量矩阵De和Dt的注意力分数,再根据注意力分数选取主题词;并对词向量矩阵De和Dt进行注意力分数的赋值;其中,获取注意力分数的公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910245584.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top