[发明专利]一种自动识别文本所承载的情感概率的方法及系统有效
申请号: | 201310094618.4 | 申请日: | 2013-03-22 |
公开(公告)号: | CN104063399B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 李青;权小军;饶洋辉;刘文印 | 申请(专利权)人: | 杭州娄文信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 梁挥,田景宜 |
地址: | 310018 浙江省杭州市杭州经济技术开发*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动识别 文本 承载 情感 概率 方法 系统 | ||
1.一种自动识别文本所承载的情感概率的方法,其特征在于,包括:
步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该文本对该情感元的投票数据;
步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元以及每个该情感元在每个文本中的得票率;
步骤3,根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;
步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。
2.如权利要求1所述的方法,其特征在于,步骤2的预处理步骤包括:
对文本进行分词处理,词干化处理,和/或,去除停用词。
3.如权利要求1所述的方法,其特征在于,该步骤3根据如下公式计算该条件概率:
其中,P(ek|wj)为特征词wj对应情感元ek的条件概率,rik为情感元ek在文本di中的得票率,P(wj|di)为特征词wj在文本di中的出现概率,N为文本总数,E为情感元总数。
4.如权利要求3所述的方法,其特征在于,步骤3、4之间还包括:
步骤31,针对每个特征词,利用P(B|w)=dfw/N计算特征词w属于背景词B的概率;
步骤32,判断P(B|w)是否大于P(e|w),如果是,执行步骤33,如果否,执行步骤34;
步骤33,将该特征词w从该情感词典中删除;
步骤34,在该情感词典中保留该特征词w;
其中,P(B|w)为特征词w属于背景词B的概率,dfw为包含该特征词的文本数量,N为该训练文本集包含的文本总数;
其中,P(e|w)为步骤3中的针对特征词w的P(ek|wj)的最大值、最小值或平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州娄文信息科技有限公司,未经杭州娄文信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310094618.4/1.html,转载请声明来源钻瓜专利网。