[发明专利]一种融合Wikipedia的实体对齐方法有效

申请号：	202110386571.3	申请日：	2021-04-12
公开（公告）号：	CN113157861B	公开（公告）日：	2022-05-24
发明（设计）人：	陈其宾;朱翔宇;李锐;王建华	申请（专利权）人：	山东浪潮科学研究院有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/295
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	250100 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合 wikipedia 实体对齐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种融合Wikipedia的实体对齐方法，属于实体对齐、Wikipedia、自然语言处理技术领域，本发明包括：1)首先构建Wikipedia每个实体的统计量，并使用ElasticSearch存储；2)针对用户聊天内容，利用分词和Ngram构建问句的候选实体集；3)检索出候选Wikipedia实体集；4)计算评价候选实体s和Wikipedia实体E匹配指标；5)最后，利用规则和阈值确认最终对齐结果。为闲聊机器人提供丰富的知识，进而改善用户体验效果。

技术领域

本发明涉及实体对齐、Wikipedia、自然语言处理技术领域，尤其涉及一种融合Wikipedia数据的实体对齐方法。

背景技术

如今，基于智能问答的闲聊机器人应用越来越普遍，具备较好的应用前景。但是，目前的闲聊机器人往往仅支持部分领域的知识问答，知识覆盖率较低，降低了用户的体验度。

Wikipedia作为大型百科知识库，可以为闲聊机器人提供丰富的知识，但一个难点就是如何检测用户的问句中提到实体(本文中，实体指Wikipedia中实体)，并和Wikipedia中实体进行对齐。目前常用的方法是利用ElasticSearch进行检索，找到Wikipedia中最相关的片段，并直接以答案的方式返回给用户，实质上是一种检索方法。如果用这种方式获取相关百科页面对应的实体，实体对齐的精准率较低，因为与问句相关的是百科页面的部分内容，而该部分内容不能指代该百科页面对应的实体。另外一种方法是直接和Wikidata的实体进行对齐，这种方式不能有效利用Wikipedia页面内容，存在召回率不高的问题。

发明内容

基于以上问题，本发明提供了一种融合Wikipedia数据的实体对齐方法，可以有效解决Wikipedia数据对齐的问题。

本发明的技术方案是：

一种融合Wikipedia数据的实体对齐方法，步骤如下：

首先构建Wikipedia每个实体的统计量，并使用ElasticSearch存储。

针对用户聊天内容，利用分词和Ngram构建问句的候选实体集。

使用ElasticSearch检索出维基页面中包含至少一个候选实体的 Wikipedia实体，作为候选Wikipedia实体集。

计算评价候选实体s和Wikipedia实体E匹配指标，包括基于统计量的匹配得分、Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分。

最后，利用规则和阈值确认最终对齐结果。

进一步的，

实体的统计量包括页面每月点击量以及链接分布P(a|E)。

再进一步的，