[发明专利]基于Mask机制与孪生网络的汉语零指代消解方法及系统在审

专利信息
申请号: 202010265414.2 申请日: 2020-04-07
公开(公告)号: CN111488733A 公开(公告)日: 2020-08-04
发明(设计)人: 孔芳;葛海柱;周国栋 申请(专利权)人: 苏州大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/221;G06F40/253;G06N3/04;G06N3/08
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 张荣
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 mask 机制 孪生 网络 汉语 指代 消解 方法 系统
【说明书】:

发明涉及一种基于Mask机制与孪生网络的汉语零指代消解方法及系统,包括在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词,结合预选的手工特征,分别通过各自线性函数处理得到第二零代词;计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。本发明避免了信息的冗余及噪声。

技术领域

本发明涉及信息处理的技术领域,尤其是指一种基于Mask机制与孪生网络的汉语零指代消解方法及系统。

背景技术

指代是指篇章中用一个指代词回指某个以前说过的语言单位。在语言学中,指代词称为照应语,所指的对象或内容称为先行语。回指是修辞学的一种术语,是指在一段话或语篇中一次又一次的提及同一个词,同一个人或同一个事物的现象。指代消解就是确定照应语和先行语之间相互关系的过程,是自然语言处理的关键问题之一。如例1:小明非常喜欢他的书包。第一步检测到“他”是一个回指语,第二步,确定先行语为实体“小明”,即“他”所指代的对象为“小明”。在自然语言中,读者能够根据上下文的关系推断出来的部分经常会被省略,被省略的部分在句子中承担句子的句法成分,并且回指前文中说过的语言单位,这个现象称为零指代。零指代即指在本身应该出现回指词的地方用零代词代替。如例2:小明吃了一个苹果,很甜。根据文本的内容推断出句子中的零代词所指向的先行词为“苹果”,但是对计算机而言,由于零代词没有具体的表达,在回指位置的检测难度上,明显高于其余两种类型的回指,因此,零代词消解是回指消解任务中的难点与重点。

汉语零代词消解任务的研究刚刚起步,目前主要存在如下一些问题:由于指代消解属于篇章层面的任务,而之前的研究将任务定义在句子级上,将零代词所在的句子和候选先行词所在的句子分别表征,因此没有考虑到零代词与候选先行词之间的联系;在表示零代词时,由于零代词形式上不存在,传统方法使用整个句子的表征来表征零代词,从而可能会导致信息冗余,引入噪声。

发明内容

为此,本发明所要解决的技术问题在于克服现有技术中信息冗余,且存在噪声的问题,从而提供一种避免信息冗余及噪声的基于Mask机制与孪生网络的汉语零指代消解方法及系统。

为解决上述技术问题,本发明的一种基于Mask机制与孪生网络的汉语零指代消解方法,包括:在零代词所在的位置加“[MASK]”标记,得到补全后的零代词所在的句子,其中若先行词和[MASK]在同一句中,则不进行拼接处理,若所述先行词和[MASK]不在同一句中,将先行词所在的句子和补全后零代词所在的句子进行拼接处理;将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词;将注意力机制融入至所述BERT模型中,对于第一先行词,通过第一线性函数处理得到第二先行词;对于第一零代词经过第二线性函数处理,结合预选的手工特征经过第三线性函数处理后得到第二零代词;计算所述第二先行词和第二零代词的相似度,输出相似度最高的先行词。

在本发明的一个实施例中,所述第一先行词采用手工制定的规则进行抽取。

在本发明的一个实施例中,所述注意力机制采用门控函数。

在本发明的一个实施例中,所述门控函数的计算方式为:st=tanh(W(att)·[enp;ezp]+b(att)),其中,W(att)和b(att)是模型学习的参数,m是候选先行词的单词数量,所述enp是第一先行词,所述enpi是所述第一先行词中的第i个字,所述ezp是第一零代词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010265414.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top