[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审
申请号: | 201610020251.5 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105701210A | 公开(公告)日: | 2016-06-22 |
发明(设计)人: | 黄发良;元昌安;何万莉;李超雄 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混杂 特征 计算 主题 情感 分析 方法 | ||
1.一种基于混杂特征计算的微博主题情感分析方法,其特征在于,包括以下步骤:
步骤1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征, 包括词语和表情符,并利用先验知识对微博特征的情感和主题进行初始赋值;
步骤2、算法参数初始化:随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m, s),分布A的超参数α,分布B的超参数β,分布H的超参数η和分布Z的超参数ζ,微博用户性格 分布矩阵US,其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语 变量和表情符变量;
步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行 估值;
步骤4、通过判断每条微博m的情感极性,表示微博m中情感极性s出现的概率: 对于微博m,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为 积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微 博消息隐含主题的检测。
2.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在 于,所述多特征主题情感模型MfJST的建立方法为:
A1、利用以α为参数的狄利克雷分布函数随机生成(微博,情感,主题)先验分布;
A2、利用以β为参数的狄利克雷分布函数随机生成(情感,主题,词语)先验概率分布;
A3、利用以ζ为参数的狄利克雷分布函数随机生成(情感,主题,表情符)先验概率分布;
A4、利用以γ为参数的狄利克雷分布函数随机生成(微博-情感)先验分布;
A5、重复如下方法直到生成一条微博中的所有特征,包括词语和表情符:对一条微博首 先利用(微博-情感)先验分布生成一个情感标签s,然后情感标签s从(微博,情感,主题)先 验分布生成一个主题标签t,最后根据选出的情感标签s和主题标签t,通过比较随机概率 rand与情感标签词语比例PROB的方式产生词语w和表情符e:若rand大于PROB,则从(情感, 主题,词语)先验概率分布产生词语w,否则从(情感,主题,表情符)先验概率分布产生表情 符e;
A6、重复步骤A5,直到微博数据集中的所有微博生成完毕。
3.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在 于,所述多特征主题情感模型MfJST参数的估值方法为:
B1、循环控制参数MaxIter置零;
B2、对每条微博m的每个特征,包括词语w和表情符e执行操作序列:从变量集 中排除具有情感s和主题t的词语w;从变量 集中排除具有情感s和主题t的词语e;其中 ns,t,w表示在微博集合C中,除微博m中当前位置上的元素外,词语w同时属于主题t和情感极 性s的频数,nm,s,t表示在微博m中,除微博m中当前位置上的特征外,具有主题t和情感极性s 的特征总计数,ns,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主 题t和情感极性s的词语总计数,nm,s表示表示在微博m中,除微博m中当前位置上的特征外, 具有情感极性s的特征总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其 他特征的总计数,ps,t,e表示在微博集合C中,除微博m中当前位置上的特征外,表情符e同时 属于主题t和情感极性s的频数,ps,t表示在微博集合C中,除微博m中当前位置上的特征外, 所有其他具有主题t和情感极性s的表情符总计数,nm表示在微博m中,除微博m中当前位置 上的特征外,所有其他特征的总计数;
根据条件分布和分别为w 和e构造新的情感主题对(snew,tnew);运用情感标签snew和主题标签tnew更新VarSet1和 VarSet2,然后更新性格参数λ;其中,和分别表示除了微博m中的第i个位置的词语 外,其他所有词语的主题向量和情感向量;和分别表示除了微博m中的第i个位置的 表情符外,其他所有表情符的主题向量和情感向量;
B3、循环控制参数MaxIter加1;
B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次;
B5、重复步骤B2、B3和B4,直到MaxIter达到设定最大迭代次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610020251.5/1.html,转载请声明来源钻瓜专利网。