[发明专利]数据处理方法、装置、电子设备和存储器有效
申请号: | 202111233230.9 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113971216B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 熊壮;詹俊峰;姚后清 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/20 |
代理公司: | 北京猷德知识产权代理有限公司 16084 | 代理人: | 范继晨 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储器 | ||
1.一种数据处理方法,包括:
在目标数据库中,获取目标词所表示的多个第一候选实体;
对每个所述第一候选实体的多维特征进行融合处理,得到每个所述第一候选实体的置信度,其中,所述置信度用于表示对应的所述第一候选实体为所述目标词所表示的正确实体的概率;
基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体;
其中,基于每个所述第一候选实体的置信度确定所述目标词所表示的正确实体包括:基于多个所述第一候选实体中与所述置信度对应的目标候选实体的所述多维特征、第一特征和/或第二特征确定所述目标候选实体为所述目标词所表示的正确实体,其中,所述第一特征用于表示所述目标词的属性和/或所述多个第一候选实体的属性,所述第二特征为所述目标词所属的场景的特征;
其中,对每个所述第一候选实体的所述多维特征进行融合处理,得到每个所述第一候选实体的所述置信度,包括:对每个所述第一候选实体的所述多维特征进行数值化处理;将数值化处理后的所述多维特征输入至第一目标模型;通过所述第一目标模型对每个所述第一候选实体的所述多维特征进行融合处理,得到每个所述第一候选实体的所述置信度,其中,所述第一目标模型为通过有监督训练得到的树模型。
2.根据权利要求1所述的方法,其中,所述方法还包括:
基于每个所述第一候选实体的置信度,在多个所述第一候选实体中确定所述目标候选实体,其中,所述目标候选实体的置信度高于所述多个第一候选实体中除所述目标候选实体之外的候选实体的置信度。
3.根据权利要求1所述的方法,其中,基于所述目标候选实体的所述多维特征、第一特征和/或第二特征确定所述目标候选实体为所述目标词所表示的正确实体包括:
通过第二目标模型对所述目标候选实体的所述多维特征、第一特征和/或第二特征进行融合处理,以确定所述目标候选实体为所述目标词所表示的正确实体,其中,所述第二目标模型为通过有监督训练得到的树模型。
4.根据权利要求1所述的方法,所述目标词的属性包括所述目标词的长度,所述多个第一候选实体的属性包括所述多个第一候选实体的数量。
5.根据权利要求1所述的方法,其中,在目标数据库中,获取目标词所表示的多个第一候选实体包括:
基于所述目标词在所述目标数据库中召回同名的多个第二候选实体;
在所述多个第二候选实体中筛选出所述多个第一候选实体。
6.根据权利要求5所述的方法,其中,在所述多个第二候选实体中筛选出所述多个第一候选实体包括:
在所述多个第二候选实体中筛选出分类特征与所述目标词的分类特征相同的所述多个第一候选实体。
7.根据权利要求1至6中任意一项所述的方法,所述多维特征包括以下至少之一:
第三特征,用于表征指向所述第一候选实体的词的数量;
第四特征,用于表征所述目标词的上下文与所述第一候选实体之间的匹配度;
第五特征,用于表征目标文本中除所述目标词之外的关键词的长度,其中,所述第一候选实体中包括所述关键词;
第六特征,为所述目标词的分类特征和/或所述第一候选实体的分类特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111233230.9/1.html,转载请声明来源钻瓜专利网。