[发明专利]一种网络舆情信息处理方法和装置有效
申请号: | 201310113356.1 | 申请日: | 2013-04-02 |
公开(公告)号: | CN103246644B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 张宏刚;罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 信息处理 方法 装置 | ||
1.一种网络舆情信息处理方法,其特征在于,包括:
从网络数据源获取网页;
获取网络热词;
将所述网络热词和所述网页对应的文档存储在数据集合中;
从所述数据集合中提取网页文档进行分词;
从所述分词结果中获取目标情感词和基准情感词,具体包括:提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词;
计算所述目标情感词与基准情感词的语义距离;根据所述语义距离判断所述网页文档的情感倾向;
所述将所述网络热词和所述网页对应的文档存储在数据集合之后还包括:
通过以下方式对数据集合中的网页文档聚类:
从所述数据集合中提取网页文档;
计算所述网页文档与目标网络热词的关联度;
将关联度超出阈值的网页文档存入所述目标网络热词对应的一类网页集合中;
重复上述步骤直到完成对所有网络热词的聚类。
2.如权利要求1所述的方法,其特征在于,所述获取网络热词包括:
从网络报文中提取基于搜索引擎提交的搜索关键字;
统计所述搜索关键字在预定时间段内被搜索次数作为网络热度;
将所述预定时间段内网络热度超出阈值的搜索关键字作为网络热词。
3.如权利要求1所述的方法,其特征在于,所述计算所述网页文档与目标网络热词的关联度XA为:
其中,XA表示目标网络热词与当前网页A的关联度,a1是目标网络热词在网络数据源D1中基于当前搜索日期所提取的网页A中出现的次数,a2是目标网络热词在网络数据源D1中基于其它日期所提取网页中出现的次数,A1、A2、A3...An分别是目标网络热词在网络数据源D1、D2、D3...Dn对应的网页中出现的总次数。
4.如权利要求3所述的方法,其特征在于,还包括:
对所述数据集合中的网页文档按地域信息分组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310113356.1/1.html,转载请声明来源钻瓜专利网。