[发明专利]共指消解方法及电子设备有效
申请号: | 202110682894.7 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113283240B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 简仁贤;马永宁;李龙威;汤潘 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/30;G06F18/2415;G06F18/22;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消解 方法 电子设备 | ||
本申请提供一种共指消解方法及电子设备,该方法包括:将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。本申请方案充分利用了已训练的字向量模型的语义理解能力,实现了对语句中指示同一实体的不同词汇的准确识别。
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种共指消解方法及电子设备。
背景技术
共指消解任务(Coreference Resolution)是指对文本中同一实体的不同表述形式进行识别。比如:“有些这样的‘洋人’就站在大众之间,如同鹤立鸡群,毫不掩饰自己的优越感。”这句话中“洋人”与“自己”表述的是同一个实体。再如:“我的护理员根本不可能是我的敌人。我已经喜欢上他了。这位门后窥视者一跨进我的房间,我就向他讲述我一生中的事件。”这里,“护理员”与“窥视者”表述的是同一个实体。
共指消解任务存在一种特殊情况,即在判断文本中两个词是否指示同一实体时,其中一个词为指代词,如“他”、“它们”,另一个普通名称可称为先行词,此时,共指消解任务可称为指代消解任务。在指代消解任务中,需要识别文本中的指代词是否指代先行词。
发明内容
本申请实施例的目的在于提供一种共指消解方法及电子设备,用于识别语句中指代同一实体的不同词汇。
一方面,本申请提供了一种共指消解方法,包括:
将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;
针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。
在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定与所述起始位置对应汉字和所述汉字对应的字向量、以及与所述结束位置对应的汉字和所述汉字对应的字向量;
确定所述起始位置对应的字向量和所述结束位置对应的字向量的均值,获得所述指定词汇对应的词向量。
在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定所述起始位置和所述结束位置之间的所有汉字和每个汉字对应的字向量;
确定每个汉字对应的字向量的均值,获得所述指定词汇对应的词向量。
在一实施例中,所述基于指定词汇构建若干词对,包括:
将所述目标语句中不同的指定词汇两两组合,获得若干词对。
在一实施例中,所述指定词汇包括指代词和先行词;
所述基于指定词汇构建若干词对,包括:
将每个指代词分别与每个先行词进行组合,获得若干词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110682894.7/2.html,转载请声明来源钻瓜专利网。