[发明专利]一种负面舆情指数的计算方法及系统有效
申请号: | 201510355005.0 | 申请日: | 2015-06-24 |
公开(公告)号: | CN104951548B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 李雪梅;刘大伟;刘玮;王海洋;隋雪青;程学旗;戴鹏飞 | 申请(专利权)人: | 烟台中科网络技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 王澎 |
地址: | 264003 山东省烟台*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 负面 舆情 指数 计算方法 系统 | ||
技术领域
本发明涉及领域,尤其涉及一种负面舆情指数的计算方法及系统。
背景技术
据中国互联网络信息中心(CNNIC)统计,截止2014年12月,中国网民规模达6.49亿。互联网普及率达到47.9%,较2013年底提升了2.1个百分点。2014年,中国网民的人均每周上网时长达26.1小时,相比2013年底增加了1.1个小时。这说明互联网发展重心从“广泛”向“深入”转换,各项网络应用深刻改变网民生活。
随着互联网的发展,互联网络作为社会舆论的工具,具有反应和引导社会舆论的功能。针对这种自由无序的网络舆情信息,网络舆情指数计算的导向作用显得日益强大。及时掌握舆情动态、积极引导社会舆情,是维护社会稳定的重要举措。因此,舆情指数计算是研究舆情监控、事态推演以及预测等技术的基础,研究负面舆情指数计算具有重要的理论和实际意义。
负面舆情指数计算的理论方法主要是文本(本发明主要处理中文文本)分类中的二分类问题(负面与非负面),在文本分类中主要涉及分词处理、特征选择、文本表示、文本分类算法、评价指标等。
目前中国人民大学舆论研究所与百度合作,基于百度的海量搜索数据提出了中国冷暖度指数等14个舆情指数。他们认为搜索量的高低反映了民众对该关键词所代表事件的关注程度。百度每年汇总出全年搜索量最高和关注热度上升最快的前1000个搜索热词,由之可以较为粗略地“刻画”出中国网民关注中国社会的“素描图”。这种技术对热搜词做了综合的和整体式的解读,但如果对整个社会基本面的宏观把握和理解所需的周期太长,对一个事件的舆情判断至少需要数天、数周甚至数月。
为了避免人工标注训练集进行有监督的舆情指数计算,有的学者提出用无监督聚类的方法实现对舆情指数的计算。使用无监督聚类方法首先在效果上不如有监督的文本分类,聚类簇数事先是未知的。其次,在超大规模数据集上的效率是否在可接受范围内还需要考证。
对文本进行特征选择后用VSM描述特征空间会存在一种缺陷,即特征空间的数据稀疏性,并且仅使用VSM描述不做任何处理的话不能很好的反映词汇间的语义关系。
南京大学的王昊与苏新宁提出一种基于条件随机场(Conditional Random Fields,CRFs)的角色标注模型。利用该模型对新闻或论坛讨论帖的标题进行角色标注,通过对人名出现次数的统计结合人名的背景进行舆情关注点的发现。但是该模型需要的舆情发现语料集封闭性的,具有一定的限制性。
发明内容
本发明所要解决的技术问题是提供一种负面舆情指数的计算方法及系统。
本发明解决上述技术问题的技术方案如下:一种负面舆情指数的计算方法,包括以下步骤:
步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;
步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;
步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;
步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,在执行步骤S1之前,还包括在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
进一步地,步骤S3中所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
进一步地,步骤S1中,所述基于情感词典的正负面分类为基于通用情感词典的无监督分类器对待分类文本进行分类;
所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所,未经烟台中科网络技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510355005.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于位权重的二值码重排方法
- 下一篇:一种大数据在线交互式查询方法及系统