[发明专利]一种自动识别文本所承载的情感概率的方法及系统有效
申请号: | 201310094618.4 | 申请日: | 2013-03-22 |
公开(公告)号: | CN104063399B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 李青;权小军;饶洋辉;刘文印 | 申请(专利权)人: | 杭州娄文信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 梁挥,田景宜 |
地址: | 310018 浙江省杭州市杭州经济技术开发*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种自动识别文本所承载的情感概率的方法及系统,该方法包括获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该情感元的投票数据;对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、及每个该情感元在每个文本中的得票率;根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。 | ||
搜索关键词: | 一种 自动识别 文本 承载 情感 概率 方法 系统 | ||
【主权项】:
一种自动识别文本所承载的情感概率的方法,其特征在于,包括:步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该文本对该情感元的投票数据;步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、以及每个该情感元在每个文本中的得票率;步骤3,根据该预处理的结果,利用Gibbs抽样算法,计算该训练文本集中每个情感主题对应每个情感元的条件概率,以组成主题‑情感词典,或者,利用Gibbs抽样算法,计算该训练文本集中每个特征词对应每个该情感元的条件概率,以组成词‑情感词典;步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用每个该特征词在该待识别文本中的出现概率以及该主题‑情感词典,计算该待识别文本对应每个情感元的概率,或者,利用每个该特征词在该待识别文本中的出现概率以及该词‑情感词典,计算该待识别文本对应每个情感元的概率;其中,该步骤3进一步包括:步骤31,根据该情感元、该出现概率以及该得票率,利用Gibbs抽样算法,计算得到和其中,为情感元ek被分配为情感主题zm的次数,为文本di被分配为情感主题zm的次数,为特征词wj被分配为情感主题zm的次数;步骤32,利用计算该训练文本集中每个该情感主题对应每个情感元的条件概率;或者,利用计算该训练文本集中每个该特征词对应每个情感元的条件概率;其中,P(ek|wj)为特征词wj对应情感元ek的条件概率,P(ek|zm)为情感主题zm对应情感元ek的条件概率,P(wj|zm)为情感主题zm对应特征词wj的条件概率,P(zm)为情感主题zm的先验概率,Z为情感主题zm的集合;其中,p(zm)=Σdi∈Dcdizm+αΣm=1K(cdizm+α);]]>p(wj|zm)=cwjzm+βΣj=1W(cwjzm+β);]]> 其中,α,β和γ为超参数,E是情感元ek的集合,W是特征词wj的集合,D为训练文本集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州娄文信息科技有限公司,未经杭州娄文信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310094618.4/,转载请声明来源钻瓜专利网。