[发明专利]基于网络文章属性的网络舆情热点发现方法和装置有效
申请号: | 201410290240.X | 申请日: | 2014-06-25 |
公开(公告)号: | CN104077377B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 屈伟 | 申请(专利权)人: | 红麦聚信(北京)软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙)11465 | 代理人: | 陈芳 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 文章 属性 舆情 热点 发现 方法 装置 | ||
技术领域
本发明涉及网络舆情技术领域,尤其涉及一种基于网络文章属性的网络舆情热点发现方法和装置。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
目前,现有技术中的一种基于聚类的网络舆情热点发现方法主要包括:通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。然后,通过二次聚类,提高舆情网页相关度的质量。
上述现有技术中的基于聚类的网络舆情热点发现方法的缺点为:该方法基于聚类,大量相关信息出现以后才能发现网络舆情热点,造成了网络舆情热点发现不及时的问题;网络上存在海量信息有大部分的是垃圾信息,该方法往往将很多出现频率高的垃圾信息判断为热点舆情信息,造成了网络舆情热点发现准确度低的问题。
发明内容
本发明的实施例提供了一种基于网络文章属性的网络舆情热点发现方法和装置,以提高网络舆情热点的发现速度和准确率。
本发明提供了如下方案:
一种基于网络文章属性的网络舆情热点发现方法,包括:
通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
根据网络文章的多种参数信息计算各个网络文章的权重值;
根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析。
所述的通过定向采集和搜索引擎采集相互结合的方式采集网络文章包括:
自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
所述的方法还包括:
针对每个搜索关键词分别设置匹配条件、针对网站和站点类型、权重值、匹配类型、针对网站、站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:
网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)
回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))))
所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点包括:
利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的对判断出的网络舆情热点进行属性分析包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于红麦聚信(北京)软件技术有限公司,未经红麦聚信(北京)软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410290240.X/2.html,转载请声明来源钻瓜专利网。