[发明专利]一种基于多样性模型的文本相关性判定方法、装置和设备有效
申请号: | 202010155810.X | 申请日: | 2020-03-09 |
公开(公告)号: | CN111310411B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 林智敏;邓蔚;雷大江;黄媛;李子杨 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/12 | 分类号: | G06F40/12;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多样性 模型 文本 相关性 判定 方法 装置 设备 | ||
本发明涉及一种基于多样性模型的文本相关性判定方法,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型中;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。本发明提高了判定文本相关性的有效性和准确性。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于多样性模型的文本相关性判定方法和设备。
背景技术
随着互联网技术的不断发展,网络上充斥着海量的数据,比如各种图片、文本等内容,丰富着人们的生活。但是,伴随这些信息的,还有各种无价值的垃圾信息,比如人们不想看到的广告、新闻等。如何从海量的数据中判定信息的相关性,获得用户所期望的信息,减少无价值信息的干扰就变得十分重要。
文本作为自然语言的载体,通常以一种非结构化或半结构化的形式存在,两个文本相关性的判定是自然语言处理中的文本语义匹配问题。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。
随着近年来深度学习在自然语言处理领域的发展,学者们逐渐将深度学习应用到文本相关度判定任务中。深度学习应用在文本相关性判定可以总结为以下四个阶段:1、单语义模型,单语义模型只是简单的用全连接网络、卷积神经网络或递归神经网络编码两个句子然后计算句子之间的匹配度,没有考虑到句子中短语的局部结构。2、多语义模型,多语义模型从多颗粒的角度解读句子,考虑到和句子的局部结构。3、匹配矩阵模型,匹配矩阵模型更多的考虑待匹配的句子间不同单词的交互,计算两两之间的匹配度,再用深度网络提取特征,更精细的处理句子中的联系。以及4、深层次的句子间模型。随着注意力机制(attention)等交互机制论文的发表,研究人员采用更精细的结构去挖掘句子内和句子间不同单词之间的联系,得到更好的效果。
本发明引入多样性的深度预训练模型,结合注意力机制判定文本相关性,能够有效提升判定结果的准确性。
发明内容
有鉴于此,本发明的目的在于提供一种自然语言处理方法,尤其涉及一种基于多样性模型的文本相关性判定方法、装置和设备,来提升判定结果的准确性。
为达到上述目的,本发明提供如下技术方案:
一种基于多样性模型的文本相关性判定方法,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。
优选地,所述对第一文档和第二文档分别进行预处理还包括,分别根据所要输入的所述至少两个预训练模型的各自的要求,截取部分内容。
优选地,所述至少两个预训练模型包括BERT、BERT-wwm、RoBERTa-large和RoBERTa-large-wwm中的任意两个或多个。
优选地,所述至少两个预训练模型分别获取合并后数字序列的向量包括合并后数字序列的句向量和字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010155810.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种芒果加工工艺
- 下一篇:一种线路板多功能加工装置