[发明专利]一种CNN-SVM模型的构建及倾向性分类方法有效
申请号: | 201610633439.7 | 申请日: | 2016-08-04 |
公开(公告)号: | CN107688576B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 张艳;涂曼姝;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;陈琳琳 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 cnn svm 模型 构建 倾向性 分类 方法 | ||
本发明公开了一种CNN‑SVM模型的构建方法,所述方法包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN‑SVM模型;将训练样本集输入CNN‑SVM模型,训练SVM分类器的参数;所述CNN‑SVM模型构建完成。基于CNN‑SVM模型,本发明还提供了一种倾向性分类方法,并构建转发树,能够对含有转发文本的待分类评论进行准确分类。本发明的倾向性分类方法可以提高分类的正确率。
技术领域
本发明涉及社交媒体信息处理领域,特别涉及一种CNN-SVM模型的构建及倾向性分类方法。
背景技术
在日常生活中,社交媒体(例如facebook、twitter、微博等)逐渐代替纸媒成为了人们了解新闻的新兴媒体,同时它也为提供了一个相对自由的发表个人言论,抒发情感的公共平台。由于社交媒体使用方便且信息更新及时,越来越多的人成为社交媒体的忠实使用者,且其言论自由度十分高,庞大的信息流揽括了众多的话题,这些信息看似琐碎不规则,事实上却蕴含着巨大的潜在价值。因此如何从社交媒体中获取用户的倾向,并服务于生活是一个很有价值的工作。现实生活中,人们希望通过分析社交媒体中一个事件的关注度和其倾向性来预测电影票房、股市情况等。当事件发生后,随着评论数与转发数的增加,事件的关注度增加,变成一个热门事件吸引更多的人关注,因此分析人们对于事件的倾向性以便采取舆论监督也是非常重要的。面对海量的数据,仅仅依靠人工浏览来获取用户倾向将是一件十分繁琐与困难的事情。
倾向性分类方法用来将文本分成不同倾向性的类别,一般分成两类(正向、负向)或者三类(正向、中性、负向)。传统的倾向性分析方法主要有机器学习和情感词典两类方法,一般机器学习的方法性优于情感词典的方法,但在社交网络中,单独的机器学习方法不能很好的考虑上下文的关系,其分类的结果虽然在正确率上比较高,但有时候不能反映社交媒体使用者的真实意图。而且在社交媒体的转发行为中,会出现倾向性反转的情况,即通过转发行为表达与被转发人不同或者相同的意见,从而对原事件发表看法,例如:我不同意//这个电影真难看,后者的转发是对转发者意见的否定,其倾向性是负向,但真实意图是对这个电影的表扬。因此,如果不考虑转发行为,会导致错误的倾向性分类。
发明内容
本发明的目的在于克服目前倾向性分类方法存在的上述问题,提供了一种卷积神经网络和支持向量机结合的倾向性分类方法,该方法将卷积神经网络与支持向量机结合构造分类模型,该模型能够提高分类的正确率;同时构建转发树解决部分社交媒体中倾向性反转的情况。
为了实现上述目的,本发明提供了一种CNN-SVM模型的构建方法,所述方法包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;将训练样本集输入CNN-SVM模型,训练SVM分类器的参数;所述CNN-SVM模型构建完成。
上述技术方案中,所述方法具体包括:
步骤1)从社交媒体上抓取基于某一事件的所有评论和转发信息,对这些信息进行预处理,得到若干个句子;提取句子的word2vec的特征;将所有含有等量正负倾向性的句子形成训练样本集;所述预处理包括:去掉过短的句子、分词和停用词;
步骤2)建立CNN模型;所述CNN模型包括:卷积层、采样层和分类层;其中,卷积层和采样层的层数为1;分类层为一个soft-max的全连接层;
步骤3)利用训练样本集训练CNN模型的各层参数;
步骤4)将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610633439.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图片展示的方法
- 下一篇:页面资源过滤方法、装置和客户端设备