[发明专利]一种面向中文文本情感倾向性检测的对抗样本生成方法有效
申请号: | 201811081210.2 | 申请日: | 2018-09-17 |
公开(公告)号: | CN109117482B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 王丽娜;王文琦;汪润;唐奔宵 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 文本 情感 倾向性 检测 对抗 样本 生成 方法 | ||
1.一种面向中文文本情感倾向性检测的对抗样本生成方法,其特征在于,包括以下步骤:
步骤1:对输入的样本数据进行预处理;
步骤1的具体实现包括以下子步骤:
步骤1.1:清理数据,删除掉无词义的符号、空格;
步骤1.2:为各类数据添加类别标签;
所述类别标签包括情感倾向中的标签正面和负面标签,类别分类中的类别从属标签;
步骤1.3:对输入样本数据进行分词;
步骤2:构造中文词语字典,构建深度学习替代模型,并对深度学习替代模型进行训练及参数调整;
步骤2的具体实现包括以下子步骤:
步骤2.1:基于word2vec构建中文词语字典,构建每个词语的索引、词向量以及每个句子对应的词语索引;
步骤2.2:根据分词后得到的词或词组的频数设置其索引值,频数小于预设阈值的词或词组索引设置为0,且索引值为0的短语或句子其向量也全为0;
步骤2.3:构建深度学习替代模型,设置输入层维度、丢弃率、迭代次数,添加输入层结点、隐藏层层数及输出层结点数,隐藏层激活函数为tanh,输出层激活函数为softmax,损失函数为categorical_crossentropy;
步骤3:把正常样本输入深度学习替代模型,计算输入中各个词语的重要程度,对其进行修改生成对抗样本;
步骤3中,预先训练一个LSTM替代模型,把一个文本数据作为输入,经过LSTM替代模型后输出一个分数s,根据预先设定的阈值与s的比较来判别该输入的类别倾向;具体判别准则为:
①获取训练集,设定训练集中的正负样本评论数据分别标记为1和0,倾向分类判别阈值用λ表示;当sλ时,该输入被判别为正样本;当s=λ时,被判别为负样本;
②原始样本分词后依次输入得到各自的分数,认为s在β到α之间的词语为偏中性,不带情感倾向或倾向微弱;sα,偏正面,sβ,偏负面;其中,β、α为设定的两个阈值,用于进一步较精确的划分情感倾向;
③名词不包含明显的情感倾向,排除在修改序列外;
则步骤3的具体实现包括以下子步骤:
步骤3.1:样本数据输入到LSTM替代模型中,分词后计算样本中各个词语的分数s;
步骤3.2:统计计算的分数中大于α和小于β词的数目,分别记为P和N;
步骤3.3:比较P和N的大小,若PN,则认为输入的数据偏正面,反之则认为输入的数据偏负面;
步骤3.4:利用评分函数计算输入文本数据中各个词或词组的重要程度;
步骤3.4的具体实现过程是:依据主题模型,将功能评论按照语义特征进行无监督的聚类分析;其中,主题的个数设置为权限的个数;
对输入样本数据X进行分词得到X=[x1,x2,x3,…,xn],n表示分词的长度,对序列中的第i个词语,计算整句输入和移除第i个词语后的输入分数的差值DS(xi):
DS(xi)=F(x1,…,xi-1,xi,xi+1,…,xn)-F(x1,…,xi-1,xi+1,…,xn)
其中,F(x1,…,xi-1,xi,xi+1,…,xn)为求输入数据分数s的功能函数;
计算序列中的第i个词语的预测分数FS(xi),通过计算输入中的前i个词语和前i-1个词语分数的差值:
FS(xi)=F(x1,x2,…,xi-1,xi)-F(x1,x2,…,xi-1)
其中假定当i=1时,FS(xi)=0;
提取输入数据中的关键词,计算TF-IDF值,
TF-IDF=TF*IDF;
其中,TF=词语在当前输入样本数据中出现的次数/当前输入样本数据的总词数;IDF=log(输入样本数据的总数目/(包含该词的输入样本数据的数目+1));
移除计算得到的关键词中的名词词语,找到这些关键词在X=[x1,x2,x3,…,xn]中的位置索引,把长度为n的零向量中相应位置的数值0用TF-IDF值替代,最后对向量归一化得到TIS(xi);
最终通过评分函数对输入样本X中的第i个词语重要程度进行计算:
score(xi)=DS(xi)*w1+FS(xi)*w2+TIS(xi)*w3
其中,w2是一个超参数,w1、w3为动态参数;
步骤3.5:若输入数据偏正面,对各个词的分数s按降序排列,若输入数据偏负面,则按升序排列;
步骤3.6:对排序在前m的词或剔除名词后的词组用同音词替换修改得到对抗样本,m为对输入样本的修改幅度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811081210.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于虚拟水库的电站偏差电量计算方法
- 下一篇:一种抗燃降解环保型液压油