[发明专利]句子噪声设计方法、设备及计算机存储介质有效

申请号：	202110051556.3	申请日：	2021-01-15
公开（公告）号：	CN112380845B	公开（公告）日：	2021-04-09
发明（设计）人：	杨孙傲;钟晓雄;张伟哲;周颖;程正涛	申请（专利权）人：	鹏城实验室
主分类号：	G06F40/247	分类号：	G06F40/247;G06F40/211;G06F40/194;G06F40/289;G06N3/04;G06N3/08
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	晏波
地址：	518000 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	句子噪声设计方法设备计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种句子噪声设计方法、设备及计算机存储介质，该方法包括以下步骤：对原始文本进行预处理，生成第一噪声文本；基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度，并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理，获得流畅度符合预设条件的第二噪声文本；采用深度学习模型对所述第二噪声文本进行预测，若预测值与采用深度学习模型对原始文本的预测值不同，则以所述第二噪声文本为目标结果。本发明解决了噪声文本流畅度不高的问题，实现在基于迭代方式定位与噪声词注入攻击基础上，加入了生成噪声流畅度优化算法，使得生成的噪声文本更加符合正确语法与人类阅读习惯。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种句子噪声设计方法、设备及计算机存储介质。

背景技术

对抗样本是指在输入样本中故意添加细微干扰，导致模型输出一个置信度较高的错误结果，其在图像与语音领域取得了一些成果，然而在文本领域，由于其离散特质，仍然面临诸多挑战。对于自然语言处理攻击模型来说，不仅仅是需要能够欺骗目标模型，对于其生成的对抗样本需要满足三个属性

（1）人预测一致性，即人类对输入文本的预测保持不变；

（2）语义的相似性，生成的对抗样本应该尽可能与原文本保持相似的含义。

（3）句子流畅度，生成的文本应该读上去自然且语法正确。

目前许多攻击模型存在如下缺点：

（1）由于文本的离散特性，噪声注入后效果不像语音、图像那样直观，有的对抗文本哪怕欺骗过了检测模型，从语义上也给人一种难以理解的感觉。

（2）目前很多文本对抗算法，噪声注入比较粗糙，无法保持对应单词在句子中的形式，比如第三人称，动词ing形式，数词的基数词与序数词等，导致生成的对抗文本读起来存在语法错误，影响了句子的流畅度。

发明内容

有鉴于此，提供一种句子噪声设计方法、设备及计算机存储介质，解决噪声文本流畅度不高的问题。