[发明专利]基于歧义实体词的文本处理方法和装置有效
申请号: | 201810044364.8 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108280061B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 冯知凡;陆超;朱勇;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06N3/08;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于歧义实体词的文本处理方法和装置,其中,方法包括:获取待消歧文本的上下文,以及待消歧文本表征的至少两个候选实体,通过训练的词向量模型生成上下文的语义向量,通过训练的无监督神经网络模型,生成至少两个候选实体的第一实体向量,计算上下文与每一个候选实体之间的相似度,确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体文本语义以及各实体之间关系的无监督神经网络模型,使得生成的候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系,使得待消歧文本的实体信息得以完整刻画,再与上下文语义向量计算相似度,确定目标实体,提高了待消歧文本消歧的准确度。 | ||
搜索关键词: | 基于 歧义 实体词 文本 处理 方法 装置 | ||
【主权项】:
1.一种基于歧义实体词的文本处理方法,其特征在于,包括以下步骤:获取待消歧文本的上下文,以及所述待消歧文本表征的至少两个候选实体;其中,所述至少两个候选实体具有不同语义;根据经过训练的词向量模型,生成所述上下文的语义向量;根据经过训练的无监督神经网络模型,生成所述至少两个候选实体的第一实体向量;其中,所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系;根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量,确定所述上下文与每一个候选实体之间的相似度;根据所述上下文与每一个候选实体之间的相似度,从至少两个候选实体中,确定出所述待消歧文本在所述上下文中所表征的目标实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810044364.8/,转载请声明来源钻瓜专利网。