[发明专利]句子噪声设计方法、设备及计算机存储介质有效
申请号: | 202110051556.3 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112380845B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 杨孙傲;钟晓雄;张伟哲;周颖;程正涛 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/211;G06F40/194;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 晏波 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 噪声 设计 方法 设备 计算机 存储 介质 | ||
本发明公开了一种句子噪声设计方法、设备及计算机存储介质,该方法包括以下步骤:对原始文本进行预处理,生成第一噪声文本;基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。本发明解决了噪声文本流畅度不高的问题,实现在基于迭代方式定位与噪声词注入攻击基础上,加入了生成噪声流畅度优化算法,使得生成的噪声文本更加符合正确语法与人类阅读习惯。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种句子噪声设计方法、设备及计算机存储介质。
背景技术
对抗样本是指在输入样本中故意添加细微干扰,导致模型输出一个置信度较高的错误结果,其在图像与语音领域取得了一些成果,然而在文本领域,由于其离散特质,仍然面临诸多挑战。对于自然语言处理攻击模型来说,不仅仅是需要能够欺骗目标模型,对于其生成的对抗样本需要满足三个属性
(1)人预测一致性,即人类对输入文本的预测保持不变;
(2)语义的相似性,生成的对抗样本应该尽可能与原文本保持相似的含义。
(3)句子流畅度,生成的文本应该读上去自然且语法正确。
目前许多攻击模型存在如下缺点:
(1)由于文本的离散特性,噪声注入后效果不像语音、图像那样直观,有的对抗文本哪怕欺骗过了检测模型,从语义上也给人一种难以理解的感觉。
(2)目前很多文本对抗算法,噪声注入比较粗糙,无法保持对应单词在句子中的形式,比如第三人称,动词ing形式,数词的基数词与序数词等,导致生成的对抗文本读起来存在语法错误,影响了句子的流畅度。
发明内容
有鉴于此,提供一种句子噪声设计方法、设备及计算机存储介质,解决噪声文本流畅度不高的问题。
本申请实施例提供了一种句子噪声设计方法,所述方法包括:
对原始文本进行预处理,生成第一噪声文本;
基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;
采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
在一实施例中,所述对原始文本进行预处理,生成第一噪声文本,包括:
计算原始文本中每个词的概率值;
基于所述概率值,获得每个词的重要度;
基于所述重要度,获得所述重要度大于第一预设阈值的候选词;
使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。
在一实施例中,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:
获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本;
获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词;
基于第一预设规则对所述对应词进行词形标注以及词性标注;
基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110051556.3/2.html,转载请声明来源钻瓜专利网。