[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审

申请号：	201610020251.5	申请日：	2016-01-13
公开（公告）号：	CN105701210A	公开（公告）日：	2016-06-22
发明（设计）人：	黄发良;元昌安;何万莉;李超雄	申请（专利权）人：	福建师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06Q50/00
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350117 福建省福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混杂特征计算主题情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混杂特征计算的微博主题情感分析方法，其特征在于，包括以下步骤：

步骤1、微博数据预处理：应用中文分词、英文词根化、表情符提取技术提取微博特征，包括词语和表情符，并利用先验知识对微博特征的情感和主题进行初始赋值；

步骤2、算法参数初始化：随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m, s)，分布A的超参数α，分布B的超参数β，分布H的超参数η和分布Z的超参数ζ，微博用户性格分布矩阵US，其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语变量和表情符变量；

步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行估值；

步骤4、通过判断每条微博m的情感极性，表示微博m中情感极性s出现的概率：对于微博m，若，其中s₁为积极情感，s₂为消极情感，则判定微博m的情感极性为积极情感，反之为消极情感；通过对联合分布A进行关于微博情感变量s的边缘化来实现微博消息隐含主题的检测。

2.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法，其特征在于，所述多特征主题情感模型MfJST的建立方法为：

A1、利用以α为参数的狄利克雷分布函数随机生成（微博，情感，主题）先验分布；

A2、利用以β为参数的狄利克雷分布函数随机生成（情感，主题，词语）先验概率分布；

A3、利用以ζ为参数的狄利克雷分布函数随机生成（情感，主题，表情符）先验概率分布；

A4、利用以γ为参数的狄利克雷分布函数随机生成（微博-情感）先验分布；

A5、重复如下方法直到生成一条微博中的所有特征，包括词语和表情符：对一条微博首先利用（微博-情感）先验分布生成一个情感标签s，然后情感标签s从（微博，情感，主题）先验分布生成一个主题标签t，最后根据选出的情感标签s和主题标签t，通过比较随机概率 rand与情感标签词语比例PROB的方式产生词语w和表情符e：若rand大于PROB，则从（情感，主题，词语）先验概率分布产生词语w，否则从（情感，主题，表情符）先验概率分布产生表情符e；

A6、重复步骤A5，直到微博数据集中的所有微博生成完毕。

3.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法，其特征在于，所述多特征主题情感模型MfJST参数的估值方法为：

B1、循环控制参数MaxIter置零；

B2、对每条微博m的每个特征，包括词语w和表情符e执行操作序列：从变量集中排除具有情感s和主题t的词语w；从变量集中排除具有情感s和主题t的词语e；其中 n_s,_t,_w表示在微博集合C中，除微博m中当前位置上的元素外，词语w同时属于主题t和情感极性s的频数，n_m,_s,_t表示在微博m中，除微博m中当前位置上的特征外，具有主题t和情感极性s 的特征总计数，n_s,_t表示在微博集合C中，除微博m中当前位置上的特征外，所有其他具有主题t和情感极性s的词语总计数，n_m,_s表示表示在微博m中，除微博m中当前位置上的特征外，具有情感极性s的特征总计数，n_m表示在微博m中，除微博m中当前位置上的特征外，所有其他特征的总计数，p_s,_t,_e表示在微博集合C中，除微博m中当前位置上的特征外，表情符e同时属于主题t和情感极性s的频数，p_s,_t表示在微博集合C中，除微博m中当前位置上的特征外，所有其他具有主题t和情感极性s的表情符总计数，n_m表示在微博m中，除微博m中当前位置上的特征外，所有其他特征的总计数；

根据条件分布和分别为w 和e构造新的情感主题对(s_new,t_new)；运用情感标签s_new和主题标签t_new更新VarSet1和 VarSet2，然后更新性格参数λ；其中，和分别表示除了微博m中的第i个位置的词语外，其他所有词语的主题向量和情感向量；和分别表示除了微博m中的第i个位置的表情符外，其他所有表情符的主题向量和情感向量；

B3、循环控制参数MaxIter加1；

B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次；

B5、重复步骤B2、B3和B4，直到MaxIter达到设定最大迭代次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610020251.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审

专利文献下载