[发明专利]一种网络舆情信息处理方法和装置有效
申请号: | 201310113356.1 | 申请日: | 2013-04-02 |
公开(公告)号: | CN103246644B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 张宏刚;罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 信息处理 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种网络舆情信息处理方法和装置。
背景技术
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
网络舆情是通过互联网传播的,公众对现实生活某些热点事件所持有的情感、态度、意见、言论或观点,其主要通过新闻评论、论坛BBS、博客Blog、聚合新闻(RSS)等方式实现。由于网络的开放性和虚拟性,导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。因此,如何及时准确的了解网络舆情就成为社会管理部门必须面对和解决的问题。
现有技术200810147645.2,公开了一种网络舆情观点收集方法,通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,按不同类别建立正负情感词库,然后依据该情感词库对观点主题句集中的关键句的情感词进行情感标记,计算出每个网民在该观点主题下的情感倾向值,得到某一热点事件的网络舆情观点,从而实现了网络舆情观点的收集。
上述现有技术中通过建立正/负情感词库对关键句的情感词进行情感标记,进而判断该关键句的情感倾向值是正面还是负面。但是,在某些汉语句中,仅凭字词很难判断其情感倾向,以情感词“相当”为例:关键句‘他的球踢的相当好’与‘这车油耗相当高’仅依据情感词“相当”所在词库的情感倾向值就无法正确判断关键句的真实情感倾向。而当这样的误判累积到一定程度时,就会造成对网络舆情判断失真。
因此,需要本领域技术人员解决的技术问题是如何提高判断网络舆情信息倾向性的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络舆情信息处理方法和装置。
依据本发明的一个方面,提供了一种网络舆情信息处理方法,所述方法包括:
从网络数据源获取网页;
获取网络热词;
将所述网络热词和所述网页对应的文档存储在数据集合中;
从所述数据集合中提取网页文档进行分词;
从所述分词结果中提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;
从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词;
计算所述目标情感词与基准情感词的语义距离;根据所述语义距离判断所述网页文档的情感倾向。
可选的,所述获取网络热词包括:
从网络报文中提取基于搜索引擎提交的搜索关键字;
统计所述搜索请求关键字在预定时间段内被搜索次数作为网络热度;
将所述预定时间段内网络热度超出阈值的搜索请求关键字作为网络热词。
可选的,所述将网络热词和网页存储在数据集合之后还包括:
对数据集合中的网页文档聚类,所述对网页文档聚类包括:
从所述数据集合中提取网页文档;
计算所述网页文档与目标网络热词的关联度;
将关联度超出阈值的网页文档存入所述目标网络热词对应的一类网页集合中;
重复上述步骤直到完成对所有网络热词的聚类;
所述计算网页文档与目标网络热词的关联度其中,XA表示目标网络热词与当前网页A的关联度,a1是目标网络热词在网络数据源D1中基于当前搜索日期所提取的网页A中出现的次数,a2是目标网络热词在网络数据源D1中基于其它日期所提取网页中出现的次数,A1、A2、A3...An分别是目标网络热词在网络数据源D1、D2、D3...Dn对应的网页中出现的总次数。
可选的,还包括:
对所述数据集合中的网页文档按地域信息分组。
可选的,所述计算目标情感词与基准情感词间的语义距离包括:
计算目标情感词w1与基准情感词w2的点互信息PMI(w1,w2)值;
所述语义距离so为所述网页文档中正面基准情感词的PMI合值与负面基准情感词PMI合值的差值;
所述根据语义距离判断所述网页文档的情感倾向包括:
当所述语义距离so值大于1,则所述网页文档的情感倾向为正面;当所述语义距离so值小于1,则所述网页文档的情感倾向为负面;
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310113356.1/2.html,转载请声明来源钻瓜专利网。