[发明专利]基于网络文章属性的网络舆情热点发现方法和装置有效
申请号: | 201410290240.X | 申请日: | 2014-06-25 |
公开(公告)号: | CN104077377B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 屈伟 | 申请(专利权)人: | 红麦聚信(北京)软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙)11465 | 代理人: | 陈芳 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 文章 属性 舆情 热点 发现 方法 装置 | ||
1.一种基于网络文章属性的网络舆情热点发现方法,其特征在于,包括:
通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
根据网络文章的多种参数信息计算各个网络文章的权重值;
根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析;
所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:
网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))));
所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点包括:
利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的对判断出的网络舆情热点进行属性分析包括:
设置用于对网络舆情热点进行情感分析的情感值,情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用关键词权重或行业关键词权重×标题出现权重+通用关键词权重或行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
2.根据权利要求1所述的基于网络文章属性的网络舆情热点发现方法,其特征在于,所述的通过定向采集和搜索引擎采集相互结合的方式采集网络文章包括:
自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
3.根据权利要求2所述的基于网络文章属性的网络舆情热点发现方法,其特征在于,所述的方法还包括:
针对每个搜索关键词分别设置匹配条件、站点类型、权重值、匹配类型和站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于红麦聚信(北京)软件技术有限公司,未经红麦聚信(北京)软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410290240.X/1.html,转载请声明来源钻瓜专利网。