[发明专利]一种面向中文微博的情感倾向分析方法有效
申请号: | 201610898432.8 | 申请日: | 2016-10-14 |
公开(公告)号: | CN106569996B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 郝志峰;梁礼欣;蔡瑞初;温雯 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 张文 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种面向中文微博的情感倾向分析方法。包括如下模块:欠采样技术模块,微博文本预处理模块,利用Word2vec扩展微博模块,特征提取模块,情感分析模型训练模块,情感倾向性判别模块。最终利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。本发明的优势是能够有效地解决中文微博数据集在情感倾向分布不平衡时的情感倾向分类问题,实施简单,识别率高,具有很强的实际价值和现实意义。 | ||
搜索关键词: | 一种 面向 中文 情感 倾向 分析 方法 | ||
【主权项】:
1.一种面向中文微博的情感倾向分析方法,其特征在于包括如下模块:(1)欠采样技术模块,利用Affinity Propagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响,具体如下:S101)、给定一个训练集t1,将它分为多数类maj1和少数类min1;S102)、对于多数类maj1,利用Affinity Propagation聚类算法将它聚成几个类,可以表示为C={c1,c2,...cn};S103)、为了构建平衡的数据集,按比例从C的各个子类中随机挑选样本得到maj2,使得maj2的样本数量与min1的样本数量相近;S104)、数据集maj2和min1将被集中在一起得到一个平衡训练集t2;S105)、将已经平衡后的训练集t2代替t1作为最终的训练集;(2)微博文本预处理模块,对微博文本进行清洗,并进行分词、词性标注和停用词处理操作;(3)利用Word2vec扩展微博模块,通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博,具体为:S301)、训练词向量,从新浪微博API收集了大量的微博语料,过滤掉没用符号和网址,最后剩下5G的微博数据用来当训练集,然后利用Word2vec中的Skip‑gram模型来训练词向量,最后通过该词向量来求微博中每个词的相似词;S302)、扩展微博,首先,给定一个微博句子ti,对它分词之后可以得到这个句子的词序列,表示为{w1,w2,...wn},然后,利用上面已经训练好的词向量来求微博句子ti中每个词的前k个相似词,从而达到扩展微博的目的;扩展后的微博可以表示为{w1,w2,...wn,w11,w12,...w1k,w21,w22,...w2k,...,wn2,...wnk},其中{w11,w12,...w1k}代表词w1的前k个相似词,对于微博中的表情符号和标点符号直接保留在微博中,所以扩展后的微博比原微博含有更多的信息;(4)特征提取模块;加载相关词典,对前面预处理过的微博进行特征提取,(5)情感分析模型训练模块,在上面已经平衡和扩展后的训练集上训练AWCRF模型,具体包括以下步骤:S501)将CRF模型应用在经过本文欠采样技术和Word2vec技术处理后的数据上从而得到AWCRF模型;S502)将特征提取模块从微博中提取出来的特征向量作为输入,使用L‑BFGS算法来训练AWCRF模型;(6)情感倾向性判别模块,利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610898432.8/,转载请声明来源钻瓜专利网。