[发明专利]句子噪声设计方法、设备及计算机存储介质有效

专利信息
申请号: 202110051556.3 申请日: 2021-01-15
公开(公告)号: CN112380845B 公开(公告)日: 2021-04-09
发明(设计)人: 杨孙傲;钟晓雄;张伟哲;周颖;程正涛 申请(专利权)人: 鹏城实验室
主分类号: G06F40/247 分类号: G06F40/247;G06F40/211;G06F40/194;G06F40/289;G06N3/04;G06N3/08
代理公司: 深圳市世纪恒程知识产权代理事务所 44287 代理人: 晏波
地址: 518000 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 句子 噪声 设计 方法 设备 计算机 存储 介质
【权利要求书】:

1.一种句子噪声设计方法,其特征在于,所述方法包括:

对原始文本进行预处理,生成第一噪声文本;

基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,并利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,获得流畅度符合预设条件的第二噪声文本;

采用深度学习模型对所述第二噪声文本进行预测,若预测值与采用深度学习模型对原始文本的预测值不同,则以所述第二噪声文本为目标结果。

2.如权利要求1所述的句子噪声设计方法,其特征在于,所述对原始文本进行预处理,生成第一噪声文本,包括:

计算原始文本中每个词的概率值;

基于所述概率值,获得每个词的重要度;

基于所述重要度,获得所述重要度大于第一预设阈值的候选词;

使用噪声词替换所述候选词,生成所述第一噪声文本;其中噪声词为利用余弦相似度计算方法在同义词词典中获得的所述候选词的同义词。

3.如权利要求1所述的句子噪声设计方法,其特征在于,所述利用所述句子结构相似度对所述第一噪声文本执行流畅度优化处理,包括:

获得预设数量个所述句子结构相似度大于第二预设阈值的相似句子结构文本;

获得所述相似句子结构文本中与所述第一噪声文本的噪声词对应位置的对应词;

基于第一预设规则对所述对应词进行词形标注以及词性标注;

基于预设的统计方法对所述对应词的词形及词性进行统计,以获得所述第一噪声文本的噪声词位置的确定词形及确定词性;

使用所述对应词中与所述确定词形及所述确定词性相同的词,替换所述第一噪声文本中的噪声词,生成流畅度优化后的噪声文本。

4.如权利要求1所述的句子噪声设计方法,其特征在于,所述基于自适应滑动窗口计算所述第一噪声文本与预加载语料库中的文本之间句子结构相似度,包括:

根据所述第一噪声文本的长度设置滑动窗口的长度,并根据第二预设规则截取所述第一噪声文本的索引区间;

计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度。

5.如权利要求4所述的句子噪声设计方法,其特征在于,所述计算所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的句子结构相似度的计算公式包括:

Sim=V×UT

其中,U表示所述第一噪声文本的索引区间对应的文本与预加载语料库中的文本之间的词性比较向量;V表示所述预加载语料库中的文本中词的权重向量。

6.如权利要求3所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,包括:

基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测;

当所述流畅度优化后的噪声文本的所述困惑度小于第三预设阈值,则令所述流畅度优化后的噪声文本为第二噪声文本。

7.如权利要求6所述的句子噪声设计方法,其特征在于,所述获得流畅度符合预设条件的第二噪声文本,还包括:

当所述困惑度大于所述第三预设阈值时,重新对所述第一噪声文本执行流畅度优化处理。

8.如权利要求6所述的句子噪声设计方法,其特征在于,所述基于困惑度,对所述流畅度优化后的噪声文本进行流畅度检测的步骤中利用交叉熵损失函数计算所述困惑度的公式,包括:

其中,Jt表示LSTM中某一时刻t的交叉熵损失函数,L表示输入样本的大小,即输入文本中词向量大小;yt,j表示在t时刻时样本j处词的实际输出概率;表示在t时刻时样本j处词的期望输出概率;T为时刻总数;J为交叉熵损失误差;Pperplexity为困惑度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110051556.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top