[发明专利]实体挂载的方法、装置、设备以及存储介质在审
申请号: | 202011550086.7 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112528644A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 肖萌;宋丹丹;廉捷;姚后清;施鹏;张玉东 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王一;包莉莉 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 方法 装置 设备 以及 存储 介质 | ||
1.一种实体挂载的方法,包括:
获取给定文本的多个候选实体和各所述候选实体的所属类别;
基于各所述候选实体在对应的所属类别下的IDF值,从多个所述候选实体中确定出待挂载实体;
从词条图谱中确定出与所述待挂载实体对应的目标义项;
将所述待挂载实体挂载至所述目标义项。
2.根据权利要求1所述的方法,其中,基于各所述候选实体的IDF值和所属类别,从多个所述候选实体中确定出待挂载实体,包括:
计算所述候选实体在对应的所属类别下的IDF值;
在所述IDF值达到与所述候选实体的所属类别对应的预设阈值的情况下,将所述候选实体确定为待挂载实体。
3.根据权利要求1所述的方法,其中,从词条图谱中确定出与所述待挂载实体对应的目标义项,包括:
从词条图谱中确定出与所述待挂载实体对应的多个候选义项;
对于各所述候选义项,计算所述待挂载实体与所述候选义项之间的相关度;
根据各所述候选义项对应的至少一个相关度,从多个所述候选义项中确定出所述目标义项。
4.根据权利要求3所述的方法,其中,所述相关度包括主题相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
提取所述给定文本中包含所述待挂载实体的上下文语句,作为所述待挂载实体的描述信息;
提取所述候选义项的描述信息,所述候选义项的描述信息包括词条名称、义项解释、义项类别、义项简介和义项内容中的至少一个;
计算所述待挂载实体的描述信息与所述候选义项的描述信息之间的线性相关度,得到所述待挂载实体与所述候选义项之间的主题相关度。
5.根据权利要求3所述的方法,其中,所述相关度包括词语级别相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
对所述待挂载实体的描述信息提取关键词,得到所述待挂载实体关键词;
对所述候选义项的描述信息提取关键词,得到所述候选义项关键词;
基于所述待挂载实体关键词的权重值和所述候选义项关键词的权重值,计算所述待挂载实体与所述候选义项之间的词语级别相关度。
6.根据权利要求3所述的方法,其中,所述相关度包括分类相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
获取所述给定文本的所属类别和所述候选义项的义项类别;
根据所述给定文本的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的分类相关度。
7.根据权利要求3所述的方法,其中,所述相关度包括类型匹配相关度,计算所述待挂载实体与所述候选义项之间的相关度,包括:
获取所述待挂载实体的所属类别和所述候选义项的义项类别;
根据所述待挂载实体的所属类别与所述候选义项的义项类别,计算所述待挂载实体与所述候选义项的类型匹配相关度。
8.根据权利要求1-7任一项所述的方法,其中,所述待挂载实体为多个,将所述待挂载实体挂载至所述目标义项,包括:
基于所述待挂载实体与对应的目标义项的主题相关度,对多个所述待挂载实体按照降序排列;
从多个所述待挂载实体中选取至少一个目标挂载实体,其中,所述目标挂载实体的总字数小于或等于所述给定文本的总字数的5%;
将各所述目标挂载实体分别挂载至对应的目标义项。
9.一种实体挂载的装置,包括:
候选实体获取模块,用于获取给定文本的多个候选实体和各所述候选实体的所属类别;
待挂载实体确定模块,用于基于各所述候选实体在对应的所属类别下的IDF值,从多个所述候选实体中确定出待挂载实体;
目标义项确定模块,用于从词条图谱中确定出与所述待挂载实体对应的目标义项;
挂载模块,用于将所述待挂载实体挂载至所述目标义项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550086.7/1.html,转载请声明来源钻瓜专利网。