[发明专利]一种CNN-SVM模型的构建及倾向性分类方法有效
申请号: | 201610633439.7 | 申请日: | 2016-08-04 |
公开(公告)号: | CN107688576B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 张艳;涂曼姝;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;陈琳琳 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 cnn svm 模型 构建 倾向性 分类 方法 | ||
1.一种倾向性分类方法,基于构建的CNN-SVM模型实现,所述CNN-SVM模型的构建方法,包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;将训练样本集输入CNN-SVM模型,训练SVM分类器的参数;所述CNN-SVM模型构建完成;
所述方法具体包括:
步骤1)从社交媒体上抓取基于某一事件的所有评论和转发信息,对这些信息进行预处理,得到若干个句子;提取句子的word2vec的特征;将所有含有等量正负倾向性的句子形成训练样本集;所述预处理包括:去掉过短的句子、分词和停用词;
步骤2)建立CNN模型;所述CNN模型包括:卷积层、采样层和分类层;其中,卷积层和采样层的层数为1;分类层为一个soft-max的全连接层;
步骤3)利用训练样本集训练CNN模型的各层参数;
步骤4)将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;
步骤5)将训练样本集中的每个句子输入训练好的CNN模型的卷积层和采样层,将采样层输出的结果输入到SVM分类器中,得到预测结果;计算预测结果和真实的标注结果的差值,根据差值调整SVM分类器的参数,直到SVM分类器所有参数训练完毕;
步骤6)CNN-SVM模型构建完成;
所述步骤3)具体包括:
步骤3-1)将每个训练样本表示成矩阵S∈R(s×n),矩阵S由s个词语向量组成:[w1,...,wi,...,ws],每一个词语向量为n个已经用word2vec特征表示的向量:[v1,...,vi,...,vn];
步骤3-2)将矩阵S输入CNN模型的卷积层,输出特征图谱C;
卷积层包含t种类型的滤波器F∈R(m×n),m是滤波器的宽度,n和矩阵S的n相同,第i个卷积后的结果计算如下:
其中,S[i-m+1:i,:]表示宽度为m的矩阵块,是卷积符号,表示矩阵块S[i-m+1:i,:]与第p个滤波器F的第q个卷积核之间的元素对应相乘,得到一个特征图谱cpq∈R(1×(s-m+1));那么每个矩阵S输入卷积层会输出特征图谱矩阵C:[c11,…,c1n,…,ctn];
步骤3-3)将特征图谱矩阵C输入采样层,每一个特征图谱cnq都将返回一个最大值:从而得到特征图谱矩阵C的高维度特征矩阵
步骤3-4)将采样层的输出D输入分类层,使用下面的公式计算句子标签的概率:
其中wk和bk是分类层的第k个节点的权重和偏移向量,K是分类层的节点的总个数;B=(b1,b2,…bK),W=(w1,w2,…wK);
步骤3-5)将训练样本集中每个样本对应的矩阵S依次输入CNN模型的卷积层和采样层,得到高维度特征矩阵D,然后输入分类层,得到预测结果;计算预测结果和真实的标注结果的差值,根据差值调整CNN模型中的参数,直到所有参数训练完毕;
所述倾向性分类方法包括:
步骤S1)对待分类的评论进行预处理,得到若干个句子;提取句子的word2vec的特征;获取输入矩阵S0;
步骤S2)将输入矩阵S0输入训练好的CNN-SVM模型,得到该评论的分类结果:情感标签。
2.根据权利要求1所述的倾向性分类方法,其特征在于,如果待分类的评论含有转发的文本,所述方法还包括:
步骤S3)在转发过程中每个被转发的路径为转发树的一个节点,构建转发树;
步骤S4)将步骤S2)得到的情感标签根据转发路径中的转发节点进行逻辑运算,逻辑运算公式如下:
其中,Nodei是转发树的第i个节点的倾向性,它的真实倾向性是将其前n个节点的真实情感结果相乘得到最终的分类结果ni,n0是使用CNN-SVM模型输出的倾向性,倾向性取值为-1或1;其中,-1表示负向情感,1表示正向情感。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610633439.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图片展示的方法
- 下一篇:页面资源过滤方法、装置和客户端设备