[发明专利]一种关键词热度自动控制方法有效
申请号: | 201310524337.8 | 申请日: | 2013-10-30 |
公开(公告)号: | CN103544294B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 黎小为;廖耀华 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京邦信阳专利商标代理有限公司11012 | 代理人: | 王昭林,胡冰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 热度 自动控制 方法 | ||
技术领域
本发明涉及信息检索和收集技术,更具体地,涉及一种关键词热度自动控制方法。
背景技术
互联网已经成为时下最重要的新媒体之一,互联网提供了这样一个平台,用户既可以作为浏览者,在互联网上浏览感兴趣的信息,也可以作为发布者,在互联网上发布内容供别人浏览。互联网最大的特点就是:发布信息快速,信息传播的速度快。例如以微博为例,如果有200万个人关注该用户,那么该用户发布的信息会在瞬间传播给这200万人,而仅仅中国互联网用户已经达到好几亿,正是由于这些特点,使得互联网经成为当前最重要、最具影响力的传播媒体。
因此,越来越多的企业都希望能够实时了解本企业在互联网上的舆论导向,搜集信息以支持公司下一步发展战略作出最快的调整。互联网上的信息浩如烟海,如何有效地搜集本企业有用的信息,是当前企业面临的重要技术问题。
现在出现了舆情系统,该系统通过业务方设置的关键词,使用网络爬虫实时的在互联网上面抓取与之相关的信息,进行数据分析后将有价值的信息推送给业务方。然而,不同业务方所订阅的关键词不同,怎样调整关键词的调度策略让网络爬虫尽可能完整的、实时的获取互联网信息成为关键技术。
目前现有的方案是基于调度策略的人工控制关键词热度方法。首先通过人工设定关键词的热度(关键词热度越高那么该关键词的调度越频繁抓取频率也就越高),然后不断去查找满足调度条件的关键词,推送到爬虫抓取队列,关键词被推送一次之后,会重新设置下次被调度的时间,并等待下次调度,设置下次调度时间和关键词的热度相关。
然而,现有技术方案虽然可以根据人为的设置关键词的热度来控制、关键词的抓取频率,然而付出的代价和时间却是巨大的,主要有以下两个方面的缺点:
1、人力资源消耗大
人工控制关键词的热度必须要人力去互联网上面调研关键词热度,一般的做法是人为的使用搜索引擎,将关键词输入搜索引擎然后统计该关键词的搜索结果。而且关键词的热度是变化的,在关键词数量多的情况下,每天需要大量人力太统计这些数据。
2、时间浪费多
人工的统计关键词热度的方法,需要人为的去记录数据然后去重新设置关键词的热度,完成这些步骤需要花费的时间一定也是巨大的,不利于舆情系统时间的去监控舆情动态。
3、关键词热度设置受个人主观意识影响
因为关键词热度设置是人工判别,不仅容易带来人为失误设置热度错误,而且,认为设置和事件效果可能会受个人主观影响,想当然的设置关键词热度,造成调度频率混乱。
发明内容
基于现在方案的缺点,我们提出一种基于调度策略的自动控制关键词热度方法,该方法将有效的解决现在方案所存在的人力资源、时间资源浪费缺点,同时免受个人主观意识影响。
本发明的一种关键词热度自动控制方法包括:1)为关键词设置关键词热度;2)将满足调度条件的关键词推送到抓取队列;3)从抓取队列中提取一个关键词用搜索引擎进行搜索;4)根据搜索引擎的搜索结果调整关键词热度。
进一步,在步骤2)中,所述调度条件为,该关键词的调度时间小于或等于系统当前时间。
进一步,步骤2)还包括:通过如下方式更新该关键词的调度时间,调度时间=系统当前时间+调度时间间隔。
进一步,所述调度时间间隔根据该关键词的热度而设定。
进一步,在步骤3)中,利用网络爬虫从抓取队列中提取一个关键词进行搜索。
进一步,在步骤3)中,所述网络爬虫使用关键词拼接微博搜索链接利用微博搜索引擎进行搜索。
进一步,在步骤3)中,用IE搜索引擎进行搜索;在步骤4)中,解析所述IE搜索引擎的搜索结果页面,包括:使用jsoup工具将搜索结果页面转化成DOM树结构;使用jsoup的DOM选择器;选择指定标签下的内容,使用正则表达式抽取出数字作为关键词相关网页数量,以及扫描该关键词是否被屏蔽;以相关网页数量和关键词是否被屏蔽的信息作为搜索结果。
进一步,在步骤4)中,根据两次搜索结果的相关网页数量的增量来调整关键词热度。
进一步,在步骤4)中,如果关键词被屏蔽,则删除该关键词。
本发明的技术方案中,通过抓取结果状态报告机制自动控制关键词热度,来替代人工设置关键词热度,节省了大量的人力资源和时间资源,同时也提高了信息抓取的及时性和热度设置的准确性。
附图说明
图1为本发明的方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310524337.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种薏仁猪皮糕的制作方法
- 下一篇:一种酱制草地蘑菇的制备方法