[发明专利]一种CNN-SVM模型的构建及倾向性分类方法有效

申请号：	201610633439.7	申请日：	2016-08-04
公开（公告）号：	CN107688576B	公开（公告）日：	2020-06-16
发明（设计）人：	张艳;涂曼姝;颜永红	申请（专利权）人：	中国科学院声学研究所;北京中科信利技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;陈琳琳
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 cnn svm 模型构建倾向性分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种倾向性分类方法，基于构建的CNN-SVM模型实现，所述CNN-SVM模型的构建方法，包括：从社交媒体上抓取基于某一事件的所有评论和转发信息，构建训练样本集；建立包含卷积层、采样层和分类层的CNN模型，利用训练样本集训练CNN模型的各层参数；将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起，构成CNN-SVM模型；将训练样本集输入CNN-SVM模型，训练SVM分类器的参数；所述CNN-SVM模型构建完成；

所述方法具体包括：

步骤1)从社交媒体上抓取基于某一事件的所有评论和转发信息，对这些信息进行预处理，得到若干个句子；提取句子的word2vec的特征；将所有含有等量正负倾向性的句子形成训练样本集；所述预处理包括：去掉过短的句子、分词和停用词；

步骤2)建立CNN模型；所述CNN模型包括：卷积层、采样层和分类层；其中，卷积层和采样层的层数为1；分类层为一个soft-max的全连接层；

步骤3)利用训练样本集训练CNN模型的各层参数；

步骤4)将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起，构成CNN-SVM模型；

步骤5)将训练样本集中的每个句子输入训练好的CNN模型的卷积层和采样层，将采样层输出的结果输入到SVM分类器中，得到预测结果；计算预测结果和真实的标注结果的差值，根据差值调整SVM分类器的参数，直到SVM分类器所有参数训练完毕；

步骤6)CNN-SVM模型构建完成；

所述步骤3)具体包括：

步骤3-1)将每个训练样本表示成矩阵S∈R^(s×n)，矩阵S由s个词语向量组成：[w₁，...，w_i，...，w_s]，每一个词语向量为n个已经用word2vec特征表示的向量：[v₁，...，v_i，...，v_n]；

步骤3-2)将矩阵S输入CNN模型的卷积层，输出特征图谱C；

卷积层包含t种类型的滤波器F∈R^(m×n)，m是滤波器的宽度，n和矩阵S的n相同，第i个卷积后的结果计算如下：

其中，S_{[i-m+1：i，：]}表示宽度为m的矩阵块，是卷积符号，表示矩阵块S_{[i-m+1：i，：]}与第p个滤波器F的第q个卷积核之间的元素对应相乘，得到一个特征图谱c_pq∈R^(1×(s-m+1))；那么每个矩阵S输入卷积层会输出特征图谱矩阵C：[c₁₁，…，c_1n，…，c_tn]；

步骤3-3)将特征图谱矩阵C输入采样层，每一个特征图谱c_nq都将返回一个最大值：从而得到特征图谱矩阵C的高维度特征矩阵

步骤3-4)将采样层的输出D输入分类层，使用下面的公式计算句子标签的概率：

其中w_k和b_k是分类层的第k个节点的权重和偏移向量，K是分类层的节点的总个数；B＝(b₁，b₂，…b_K)，W＝(w₁，w₂，…w_K)；

步骤3-5)将训练样本集中每个样本对应的矩阵S依次输入CNN模型的卷积层和采样层，得到高维度特征矩阵D，然后输入分类层，得到预测结果；计算预测结果和真实的标注结果的差值，根据差值调整CNN模型中的参数，直到所有参数训练完毕；

所述倾向性分类方法包括：

步骤S1)对待分类的评论进行预处理，得到若干个句子；提取句子的word2vec的特征；获取输入矩阵S₀；

步骤S2)将输入矩阵S₀输入训练好的CNN-SVM模型，得到该评论的分类结果：情感标签。

2.根据权利要求1所述的倾向性分类方法，其特征在于，如果待分类的评论含有转发的文本，所述方法还包括：

步骤S3)在转发过程中每个被转发的路径为转发树的一个节点，构建转发树；

步骤S4)将步骤S2)得到的情感标签根据转发路径中的转发节点进行逻辑运算，逻辑运算公式如下：

其中，Node_i是转发树的第i个节点的倾向性，它的真实倾向性是将其前n个节点的真实情感结果相乘得到最终的分类结果n_i，n₀是使用CNN-SVM模型输出的倾向性，倾向性取值为-1或1；其中，-1表示负向情感，1表示正向情感。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。