[发明专利]基于网络文章属性的网络舆情热点发现方法和装置有效
申请号: | 201410290240.X | 申请日: | 2014-06-25 |
公开(公告)号: | CN104077377B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 屈伟 | 申请(专利权)人: | 红麦聚信(北京)软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙)11465 | 代理人: | 陈芳 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种基于网络文章属性的网络舆情热点发现方法和装置。该方法主要包括通过定向采集和搜索引擎采集相互结合的方式采集网络文章,根据网络文章的多种参数信息计算各个网络文章的权重值,根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析。本发明实施例能够快速、及时地发现网络舆情热点。通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章的多种参数属性判断网络文章的价值高低,提高网络舆情热点发现的准确度。 | ||
搜索关键词: | 基于 网络 文章 属性 舆情 热点 发现 方法 装置 | ||
【主权项】:
一种基于网络文章属性的网络舆情热点发现方法,其特征在于,包括:通过定向采集和搜索引擎采集相互结合的方式采集网络文章;根据网络文章的多种参数信息计算各个网络文章的权重值;根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析;所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:网络文章的权重值的算法公式为:网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1站点权重=人工配置站点时所设置点击数、回复数权重=(点击数权重+回复数权重)/2标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))文章长度权重=文章长度<100?‑10:(文章长度<200?‑7:(文章长度<300?‑4:(文章长度<500?0:(文本密度))));所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点包括:利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;所述的对判断出的网络舆情热点进行属性分析包括:设置用于对网络舆情热点进行情感分析的情感值,情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;网络舆情热点的情感值的计算公式如下:其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,C=通用关键词权重或行业关键词权重×标题出现权重+通用关键词权重或行业关键词权重将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;‑舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;网络舆情热点的情感值=<‑舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于红麦聚信(北京)软件技术有限公司,未经红麦聚信(北京)软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410290240.X/,转载请声明来源钻瓜专利网。