[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审

专利信息
申请号: 201610020251.5 申请日: 2016-01-13
公开(公告)号: CN105701210A 公开(公告)日: 2016-06-22
发明(设计)人: 黄发良;元昌安;何万莉;李超雄 申请(专利权)人: 福建师范大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06Q50/00
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350117 福建省福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混杂 特征 计算 主题 情感 分析 方法
【权利要求书】:

1.一种基于混杂特征计算的微博主题情感分析方法,其特征在于,包括以下步骤:

步骤1、微博数据预处理:应用中文分词、英文词根化、表情符提取技术提取微博特征, 包括词语和表情符,并利用先验知识对微博特征的情感和主题进行初始赋值;

步骤2、算法参数初始化:随机初始化联合分布A(m,s,t)、B(s,t,w)、Z(s,t,e)和H(m, s),分布A的超参数α,分布B的超参数β,分布H的超参数η和分布Z的超参数ζ,微博用户性格 分布矩阵US,其中m、s、t、w和e分别表示微博消息变量、微博情感变量、微博主题变量、词语 变量和表情符变量;

步骤3、利用吉布斯采样技术对多特征主题情感模型MfJST的参数的联合分布A和H进行 估值;

步骤4、通过判断每条微博m的情感极性,表示微博m中情感极性s出现的概率: 对于微博m,若,其中s1为积极情感,s2为消极情感,则判定微博m的情感极性为 积极情感,反之为消极情感;通过对联合分布A进行关于微博情感变量s的边缘化来实现微 博消息隐含主题的检测。

2.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在 于,所述多特征主题情感模型MfJST的建立方法为:

A1、利用以α为参数的狄利克雷分布函数随机生成(微博,情感,主题)先验分布;

A2、利用以β为参数的狄利克雷分布函数随机生成(情感,主题,词语)先验概率分布;

A3、利用以ζ为参数的狄利克雷分布函数随机生成(情感,主题,表情符)先验概率分布;

A4、利用以γ为参数的狄利克雷分布函数随机生成(微博-情感)先验分布;

A5、重复如下方法直到生成一条微博中的所有特征,包括词语和表情符:对一条微博首 先利用(微博-情感)先验分布生成一个情感标签s,然后情感标签s从(微博,情感,主题)先 验分布生成一个主题标签t,最后根据选出的情感标签s和主题标签t,通过比较随机概率 rand与情感标签词语比例PROB的方式产生词语w和表情符e:若rand大于PROB,则从(情感, 主题,词语)先验概率分布产生词语w,否则从(情感,主题,表情符)先验概率分布产生表情 符e;

A6、重复步骤A5,直到微博数据集中的所有微博生成完毕。

3.根据权利要求1所述的一种基于混杂特征计算的微博主题情感分析方法,其特征在 于,所述多特征主题情感模型MfJST参数的估值方法为:

B1、循环控制参数MaxIter置零;

B2、对每条微博m的每个特征,包括词语w和表情符e执行操作序列:从变量集 中排除具有情感s和主题t的词语w;从变量 集中排除具有情感s和主题t的词语e;其中 ns,t,w表示在微博集合C中,除微博m中当前位置上的元素外,词语w同时属于主题t和情感极 性s的频数,nm,s,t表示在微博m中,除微博m中当前位置上的特征外,具有主题t和情感极性s 的特征总计数,ns,t表示在微博集合C中,除微博m中当前位置上的特征外,所有其他具有主 题t和情感极性s的词语总计数,nm,s表示表示在微博m中,除微博m中当前位置上的特征外, 具有情感极性s的特征总计数,nm表示在微博m中,除微博m中当前位置上的特征外,所有其 他特征的总计数,ps,t,e表示在微博集合C中,除微博m中当前位置上的特征外,表情符e同时 属于主题t和情感极性s的频数,ps,t表示在微博集合C中,除微博m中当前位置上的特征外, 所有其他具有主题t和情感极性s的表情符总计数,nm表示在微博m中,除微博m中当前位置 上的特征外,所有其他特征的总计数;

根据条件分布和分别为w 和e构造新的情感主题对(snew,tnew);运用情感标签snew和主题标签tnew更新VarSet1和 VarSet2,然后更新性格参数λ;其中,和分别表示除了微博m中的第i个位置的词语 外,其他所有词语的主题向量和情感向量;和分别表示除了微博m中的第i个位置的 表情符外,其他所有表情符的主题向量和情感向量;

B3、循环控制参数MaxIter加1;

B4、每k次迭代运用新采样结果对分布A、B、H和Z更新1次;

B5、重复步骤B2、B3和B4,直到MaxIter达到设定最大迭代次数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610020251.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top