[发明专利]句子噪声设计方法、设备及计算机存储介质有效
申请号: | 202110051556.3 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112380845B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 杨孙傲;钟晓雄;张伟哲;周颖;程正涛 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/211;G06F40/194;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 晏波 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 噪声 设计 方法 设备 计算机 存储 介质 | ||
1.一种句子噪声设计方法,其特征在于,所述方法包括:
对原始文本进行预处理,生成第一噪声文本;
基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;
采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。
2.如权利要求1所述的句子噪声设计方法,其特征在于,所述对原始文本进行预处理,生成第一噪声文本,包括:
计算原始文本中每个词的概率值;
基于所述概率值,获得每个词的重要度;
基于所述重要度,获得所述重要度大于第一预设阈值的候选词;
使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。
3.如权利要求1所述的句子噪声设计方法,其特征在于,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:
获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本;
获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词;
基于第一预设规则对所述对应词进行词形标注以及词性标注;
基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性;
使用所述对应词中与所述确定词形及所述确定词性相同的词,替换所述第一噪声文本中的噪声词,生成流畅度优化后的噪声文本。
4.如权利要求1所述的句子噪声设计方法,其特征在于,所述基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,包括:
根据所述第一噪声文本的长度设置滑动窗口的长度,并根据第二预设规则截取所述第一噪声文本的索引区间;
计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度。
5.如权利要求4所述的句子噪声设计方法,其特征在于,所述计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度的计算公式包括:
Sim=V×UT
其中,U表示所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的词性比较向量;V表示所述预加载语料库中的文本中词的权重向量。
6.如权利要求3所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,包括:
基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测;
当所述流畅度优化后的噪声文本的所述困惑度小于第三预设阈值,则令所述流畅度优化后的噪声文本为第二噪声文本。
7.如权利要求6所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,还包括:
当所述困惑度大于所述第三预设阈值时,重新对所述第一噪声文本执行流畅度优化处理。
8.如权利要求6所述的句子噪声设计方法,其特征在于,所述基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测的步骤中利用交叉熵损失函数计算所述困惑度的公式,包括:
其中,Jt表示LSTM中某一时刻t的交叉熵损失函数,L表示输入样本的大小,即输入文本中词向量大小;yt,j表示在t时刻时样本j处词的实际输出概率;表示在t时刻时样本j处词的期望输出概率;T为时刻总数;J为交叉熵损失误差;Pperplexity为困惑度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110051556.3/1.html,转载请声明来源钻瓜专利网。