[发明专利]一种微博热点话题的情感倾向分析方法在审
申请号: | 201910540279.5 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110297986A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 徐建国;蔺珍;肖海峰;韩青君 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06F16/35 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 马金华 |
地址: | 266590 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 情感倾向 热点话题 多元分类模型 情感信息 文本情感 话题 抽取 情感倾向性分析 采集 多元分类 情感分类 实时响应 文本信息 分析 词语 文本 响应 主观 | ||
1.一种微博热点话题的情感倾向分析方法,其特征在于按照以下步骤进行:
A、微博热点话题的数据获取与预处理;根据指定的话题,采集话题的文本信息;
B、抽取与微博热点话题相关的主观微博评价词语情感信息;情感信息抽取过程中,为提高获取的情感信息的质量,结合TF-IDF-COS与SVM算法改进了微博情感信息抽取模型,来抽取与微博热点话题相关的主观微博评价词语情感信息的抽取;
C、在情感分类过程中,为提高微博文本情感多元分类的准确性,提出的基于SVM-BILSTM的微博文本情感多元分类模型;
D、最后根据前面的分析及结果做出情感倾向性分析。
2.按照权利要求1所述一种微博热点话题的情感倾向分析方法,其特征在于:所述步骤A中,微博热点话题的数据获取与预处理是指选定微博中的特定话题,利用Python工具到微博平台爬取该话题的文本信息,随后对采集到的半结构化信息进行预处理,进而得到纯文本语料进行存储。
3.按照权利要求1所述一种微博热点话题的情感倾向分析方法,其特征在于:所述步骤B中TF-IDF-COS与SVM算法如下:
选取TF-IDF算法结合余弦系数相似度计算方法来计算文本与话题的相似度,通过计算词i的TF-IDF权重及词i和热点话题词T(w)之间的余弦系数,进而抽取出与热点话题词相似度较大的词,再通过SVM算法将与话题相关的文本和与话题无关的文本进行分类,进而得到与话题相关的微博文本,词频反映了一个词在文档中出现的次数,计算公式如下:
其中,wi表示为第i个词汇,pj表示为第j篇文本,nij表示为第i个词汇在第j篇文本中出现的次数,nj表示为第j篇文本词汇的总和;逆文档频率是对一个词语重要性的度量,描述了该词语的使用范围,计算公式如下:
其中,m为语料库的文档总数,mi为语料库中包含词语wi的文档数量,同时,为防止某一个生僻词不在语料库中而使得该式的分母为0,所以对IDF进行了平滑处理,即分母做加1处理,使语料库中没有出现的词也可以得到一个合适的IDF值,
TF-IDF=词频(TF)×逆文档频率(IDF)
在文本特征表示时,每条微博文本都可以用微博中词的特征来表示,这些词的特征及其权重构成空间中的向量(W1,j,W2,j,W3,j,…,Wn,j),其中Wi,j为词条i在微博文本Dj中的权重,计算如下:
Wi,j=TFi,j×IDFi×COSi。
4.按照权利要求1所述一种微博热点话题的情感倾向分析方法,其特征在于:所述步骤C中SVM-BILSTM算法就是把SVM和BILSTM结合的一种算法,利用SVM-BILSTM的微博文本情感多元分类模型,输出极正、较正、正向、负向、较负、极负6个情感类别,BILSTM的计算方法为
st=f(Uxt+Wst-1)
s′t=f(U′xt+W′s′t+1)
其中,权重U和U′、W和W′、V和V′分别是BILSTM计算时的不同权重矩阵,W,U为正向计算时输入到隐藏层的权重,U′,W′为反向计算时隐藏层到隐藏层的权重,V,V′为BILSTM隐藏层到输出层的权重,SVM是指在样本点所在的向量空间中找出一个满足分类要求的最优分类超平面,它可以把不同类的样本分开,使分类间隔最大化,它是机器学习中的一类按监督学习方式对数据进行二元分类的广义线性分类器,主要依赖于不同的核函数:
K(xi,yi)=(xi*yi)
选取训练样本集T=(xi,yi),i=1,2,…,n;x为输入向量;y={1,-1},yi为xi向类标签,超平面方程如下:ω·xi+b=0
其中ω为法向量,决定超平面的方向,b为位移项,决定超平面与原点之间的距离,最后得到训练样本核函数展开式为:
i=1,2,…,n;x为输入向量;y={1,-1},yi为xi向类标签,k为核函数,b为位移项,ɑ为拉格朗日乘子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910540279.5/1.html,转载请声明来源钻瓜专利网。