[发明专利]基于歧义实体词的文本处理方法和装置有效

申请号：	201810044364.8	申请日：	2018-01-17
公开（公告）号：	CN108280061B	公开（公告）日：	2021-10-26
发明（设计）人：	冯知凡;陆超;朱勇;李莹	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/247;G06N3/08;G06K9/62
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于歧义实体词的文本处理方法和装置，其中，方法包括：获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，通过训练的词向量模型生成上下文的语义向量，通过训练的无监督神经网络模型，生成至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体文本语义以及各实体之间关系的无监督神经网络模型，使得生成的候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，使得待消歧文本的实体信息得以完整刻画，再与上下文语义向量计算相似度，确定目标实体，提高了待消歧文本消歧的准确度。
搜索关键词：	基于歧义实体词文本处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于歧义实体词的文本处理方法，其特征在于，包括以下步骤：获取待消歧文本的上下文，以及所述待消歧文本表征的至少两个候选实体；其中，所述至少两个候选实体具有不同语义；根据经过训练的词向量模型，生成所述上下文的语义向量；根据经过训练的无监督神经网络模型，生成所述至少两个候选实体的第一实体向量；其中，所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系；根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量，确定所述上下文与每一个候选实体之间的相似度；根据所述上下文与每一个候选实体之间的相似度，从至少两个候选实体中，确定出所述待消歧文本在所述上下文中所表征的目标实体。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810044364.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于树库转化的越南语依存树库错误检测的方法
下一篇：基于深度学习的实体和实体关系识别方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于歧义实体词的文本处理方法和装置有效

专利文献下载