[发明专利]一种基于主题的网络用户评论的推荐度评分方法有效
申请号: | 201410595741.9 | 申请日: | 2014-10-30 |
公开(公告)号: | CN104331451B | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 许超;蒋智威;顾庆;王晓亮;陈道蓄 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 贺翔 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 网络 用户 评论 推荐 评分 方法 | ||
1.一种基于主题的网络用户评论的推荐度评分方法,其特征在于包含以下步骤:
1)获取网络中同一主题下的用户评论,以句子为单位组织这些评论;给定主题T,T={R1,R2,...}表示主题T下的所有用户评论;获取这些评论后,对其中的一个评论Ri,i≥1,将其分割为句子集合,即:Ri={S1,S2,…},其中Sj代表一个句子,j≥1;
2)基于句子中的情感词,对每一个句子完成情感评分;其具体处理流程是:首先将句子S解析成单词的序列S=<w1,w2,...,wn>,其中w为单词,n为句子中包含的单词总数;然后对照情感词库,提取其中的情感词和程度词;分别对情感词和程度词打分;接下来针对情感词和程度词的组合打分;完成单词组合打分后,汇总成句子的情感评分,其公式如下:
其中R代表待评分的句子,v(w)代表对单词或词组的评分,n为句子中的单词总数;最后将句子的情感评分离散化为三个极性:正面、负面、中性;
3)以句子和对应的情感评分作为输入,按用户单位,训练隐马尔可夫SVM模型(Hmm-SVM);
4)针对待评分的目标评论,采用Hmm-SVM模型为评论中的每一个句子评分;
5)针对待评分的目标评论,采用步骤2)方法对每一个句子评分;
6)采用加权平均法,综合步骤4)及步骤5)两个方面的评分,获得目标评论的推荐度评分。
2.根据权利要求1所述的基于主题的网络用户评论的推荐度评分方法,其特征在于,上述步骤2)中对情感词和程度词打分的过程是,依据已制定和公开的情感词库将情感词分成正反两个极性,其中正面极性打分为1;负面极性打分为-1;参照已制定和公开的情感词库:将程度词分为正向及反向两个等级:其中正向等级打分为1;反向等级打分为-1。
3.根据权利要求2所述的基于主题的网络用户评论的推荐度评分方法,其特征在于,上述步骤2)中对情感词和程度词的组合打分的过程分三种情况:
1)情感词单独出现,其前后没有程度词:按照情感词极性直接打分;
2)程度词单独出现,其前后没有情感词:忽略程度词;
3)情感词和程度词成对出现:分数为情感词和程度词打分的乘积。
4.根据权利要求3所述的基于主题的网络用户评论的推荐度评分方法,其特征在于,步骤2)中将句子的情感评分离散化为三个极性:正面、负面、中性的具体评分标准为:
1)正面,评分大于等于t,t为阈值,取值空间为[0.02~0.2],建议取值0.1;此时评分为1;
2)负面,评分小于等于-t,t含义同上;此时评分为-1;
3)中性,评分介于-t和t之间,t含义同上;此时评分为0。
5.根据权利要求4所述的基于主题的网络用户评论的推荐度评分方法,其特征在于,上述步骤3)中按用户单位训练隐马尔可夫SVM模型的处理过程是:首先以用户为单位,收集用户U在主题下的所有评论中的句子,组成一个句子序列;然后将序列中的句子排序,即U=<S1,S2,...>,排序规则是:属于同一评论的按先后次序,属于不同评论则按时间顺序;接下来以句子为单位,提取文本特征,将句子转换为一个有标记的特征向量FS+=<f1,f2,...,v>,其中fi为文本特征值,i≥1,v为离散化的情感评分;最后按照用户单位,以句子序列对应的特征向量序列作为输入,训练隐马尔可夫SVM模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410595741.9/1.html,转载请声明来源钻瓜专利网。