[发明专利]一种负面舆情指数的计算方法及系统有效
申请号: | 201510355005.0 | 申请日: | 2015-06-24 |
公开(公告)号: | CN104951548B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 李雪梅;刘大伟;刘玮;王海洋;隋雪青;程学旗;戴鹏飞 | 申请(专利权)人: | 烟台中科网络技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 王澎 |
地址: | 264003 山东省烟台*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 负面 舆情 指数 计算方法 系统 | ||
1.一种负面舆情指数的计算方法,其特征在于,包括以下步骤:
步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;
步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;
步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;
步骤S4,将分类结果1的值、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。
2.根据权利要求1所述的负面舆情指数的计算方法,其特征在于,在执行步骤S1之前,还包括在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
3.根据权利要求1所述的负面舆情指数的计算方法,其特征在于,步骤S3中所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形成所述训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
4.根据权利要求3所述的负面舆情指数的计算方法,其特征在于,步骤S1中,所述基于情感词典的正负面分类为基于通用情感词典的无监督分类器对待分类文本进行分类;
所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVTn×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VTn×n为n×n的方阵;
取矩阵Am×n的前k个奇异值对应的矩阵VTk×n来表示矩阵Am×n,其中k为大于等于1的整数;
对矩阵VTk×n进行SVM训练,得到Model模型。
5.根据权利要求3所述的负面舆情指数的计算方法,其特征在于,步骤S4后还包括将负面舆情指数值超过预定阈值的待分类文本和所述分类结果1与所述分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
6.一种负面舆情指数的计算系统,其特征在于,包括基于情感词典的正负面分类模块、基于Model模型的SVM分类模块、正负面判断模块、用户标注负面词典匹配模块、训练集关键词典匹配模块和线性组合模块;
所述基于情感词典的正负面分类模块用于对待分类文本进行基于情感词典的正负面分类并得到分类结果1;
所述基于Model模型的SVM分类模块用于对待分类文本进行基于Model模型的SVM分类并得到分类结果2;
所述正负面判断模块用于判断分类结果1和分类结果2的正负面;
所述用户标注负面词典匹配模块用于将待分类文本与用户标注负面词典匹配,得到负面指标1;
所述训练集关键词典匹配模块用于将待分类文本与训练集关键词典匹配,得到负面指标2;
所述线性组合模块用于将分类结果1的值、负面指标1和负面指标2进行线性组合,得到待分类文本的负面舆情指数。
7.根据权利要求6所述的负面舆情指数的计算系统,其特征在于,还包括待分类文本过滤模块,用于在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所,未经烟台中科网络技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510355005.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于位权重的二值码重排方法
- 下一篇:一种大数据在线交互式查询方法及系统