[发明专利]基于注意力机制的文本查重方法、装置、设备及存储介质有效

申请号：	201910529271.9	申请日：	2019-06-18
公开（公告）号：	CN110347790B	公开（公告）日：	2021-08-10
发明（设计）人：	杜翠凤;刘丽娴	申请（专利权）人：	广州杰赛科技股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F16/35;G06F40/284
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	黄诗彬;郝传鑫
地址：	510310 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制文本方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的文本查重方法、装置、设备及存储介质，该方法包括：对接收到的待查重语料进行预处理，获得待查重语料的词向量；通过注意力模型对词向量进行处理，获得待查重语料的目标语言词向量；根据各个目标语言词向量之间的相似度，从目标语言词向量中选择至少一个词向量作为关键词向量；计算以关键词向量为中心的预设的窗口内的目标语言词向量的贡献率；根据预设的窗口内的目标语言词向量及其贡献率，将预设的窗口内的目标语言词向量进行相似度的拼接；对拼接后的目标语言词向量与目标语言语料进行相似度计算，获得待查重语料的查重结果，该方法能够避免由于中文翻译导致无法准确查重的问题，提高文本查重的准确性。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于注意力机制的文本查重方法、装置、设备及存储介质。

背景技术

文本查重(论文查重)是指用一定的算法将论文和数据库中已收录的论文进行对比，从而获知论文中哪些部分涉嫌抄袭。传统的文本查重技术一般是判断一句话中有6-7个汉字(13个字符)重复(不是连续的汉字)就认定为文本重复。

但是传统的文本查重实际上是依据单个汉字的重复度对汉语之间进行向量查询，因此存在一个严重的缺陷：对于将中文翻译成其他语言，然后又将其他语言进行中文翻译的文本，其能够避开中文的检索，使用传统的文本查重方法无法准确查重。

发明内容

针对上述问题，本发明的目的在于提供一种基于注意力机制的文本查重方法、装置、设备及存储介质，其充分考虑了文本的语义层面，避免由于中文翻译导致无法准确查重的问题，提高文本查重的准确性。

第一方面，本发明实施例提供了一种基于注意力机制的文本查重方法，包括以下步骤：

对接收到的待查重语料进行预处理，获得所述待查重语料的词向量；

通过预先构建的注意力模型对所述词向量进行处理，获得所述待查重语料的目标语言词向量；

根据各个目标语言词向量之间的相似度，从所述目标语言词向量中选择至少一个词向量作为关键词向量；

计算以所述关键词向量为中心的预设的窗口内的目标语言词向量的贡献率；