[发明专利]一种用于互联网服务的实体链接方法、装置及存储介质有效
申请号: | 202110132929.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN112463914B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 宋怡晨;李爱平;贾焰;周斌;涂宏魁;王晔;赵晓娟;刘子牛;李晨晨;马锶霞;王昌海;汪天翔;陈恺;喻承 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/332;G06F16/335;G06F16/36;G06N3/08;G06N3/04;G06N5/02 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 陈松 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 互联网 服务 实体 链接 方法 装置 存储 介质 | ||
本发明提供了一种用于互联网服务的实体链接方法、装置、存储介质,可以综合利用知识库中实体的上下文信息与实体之间的关系结构信息,提供更准确地实体链接结果,方法包括步骤:提取用户在互联网服务使用中浏览或输入的内容,获取所有待链接实体及其上下文,在知识库中确定候选实体集;分别基于wikipedia知识库和wikidata知识库构造训练集,训练得到实体的向量表示,获取候选实体的向量表示;通过词嵌入获得待链接实体的上下文中词的向量表示;构建并训练实体链接模型,确定候选实体集合中各候选实体与待链接实体的相似度得分;将候选实体集合中得分最高的候选实体视为链接实体,并返回得分最高的前N个候选实体作为参考选项。
技术领域
本发明涉及机器学习中的神经网络技术领域和互联网服务技术领域,具体涉及一种用于互联网服务的实体链接方法、装置、存储介质。
背景技术
当时代进入信息时代,互联网上每时每刻都有海量数据生成,信息爆炸在带来海量信息的同时,也对快速准确地获取目标信息提出了挑战。当前互联网上存在着以wiki为代表的大量知识库,如BDpedia、YAGO、百度百科等等,相较于互联网上零散的数据,这些知识库中的知识是经过对海量数据的抽取、整理产生的有结构的信息,这种表达成更接近人类认知世界的形式,可以帮助更好地组织、管理和理解互联网中的海量信息。为了将网络大数据环境下的碎片化的数据与知识库中结构化的数据联系起来,采用实体链接任务将文本中的识别到的实体提及(即命名实体、待链接实体),链接到知识库中的一个具体真实实体。
实体链接可以丰富文本的语义信息,因此可以应用于很多现实的互联网服务场景中,例如对用户的浏览文本提取实体进行链接,可以为用户进行更精准的兴趣推荐;对用户的提问文本进行实体链接,可以帮助搜索引擎更好的理解用户的搜索意图,从知识库中更快的为用户检索推荐结果,提供更高的搜索服务质量;对用户浏览的文本进行链接,可以提升用户阅读体验等等。
实体链接的基本思想是首先根据给定的实体提及项,从知识库中选出一组候选实体对象,然后通过相似度计算对候选实体项进行排序,选择正确的实体对象进行链接。传统的实体链接方法主要是基于概率的方法进行计算,如通过字符串相似度、语义相似度、上下文相似度、流行度和主题模型等进行计算得分,这些方法相对简单,但是因为只考虑局部文本的语义,所以准确率相对不高。针对这种情况,研究者采用基于图的方法来挖掘结构等全局信息,这类方法大多以实体提及和候选实体为节点,图的边分为两类:一类是实体指称和其对应的候选实体之间的边,权重多为实体指称和候选实体之间的局部文本相似度;另一类是候选实体之间的边,权重多为候选实体之间的语义相关度,然后利用密集子图、图遍历等方法选择对应提及对应实体,但是基于图的方法计算复杂度偏高,对语义的利用率不高,而且一般这类方法只返回最优解,不能返回其他答案的参考排序,在实际应用中,效果相对一般。
已有的实体链接方法大多是单纯基于wikipedia知识库展开研究的,这些方法对文本信息的利用率极高,外部知识库一般多考虑wordnet、yago之类的类型信息,对结构信息的利用主要通过对wikipedia文档中实体的共现情况进行,因此对结构信息和关系信息的利用效果较差。
发明内容
针对上述问题,本发明提供了一种用于互联网服务的实体链接方法、装置、存储介质,可以综合利用知识库中实体的上下文文本信息与实体之间的关系结构信息,提供更准确地实体链接结果,方便在互联网服务中为用户进行内容推送。
其技术方案是这样的:一种用于互联网服务的实体链接方法,包括以下步骤:
步骤1:提取用户在互联网服务使用中浏览或输入的内容,进行数据预处理,获取所有待链接实体和待链接实体的上下文,在wikipedia知识库中确定待链接实体的候选实体集;
步骤2:分别基于wikipedia知识库和wikidata知识库构造训练集,训练得到于wikipedia知识库和wikidata知识库中实体的向量表示,从中获取候选实体的向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110132929.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仿生小肠绒毛电化学细胞传感器及其应用
- 下一篇:一种燃油供应系统及飞行器