[发明专利]一种热点新闻抓取方法、装置及服务器在审
申请号: | 202011041937.5 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112182335A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 赵通;党韬;余欣 | 申请(专利权)人: | 四川封面传媒有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;H04L29/08 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨国瑞 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点新闻 抓取 方法 装置 服务器 | ||
本发明涉及数据挖掘技术领域,具体涉及一种热点新闻抓取方法、装置及服务器。包括获取移动终端通知系统的通知服务类;根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间;判定通知实例对应的应用程序包名是否为目标应用程序包名;当判定通知实例对应的应用程序包名为目标应用程序包名后,将通知实例与通知时间打包成格式数据包,并上传至服务器。本发明可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种热点新闻抓取方法、装置及服务器。
背景技术
新闻是指最新发生的,人们未知、欲知、应知的事实的报道。新点新闻是指互联网中的热门新闻。热点新闻挖掘是指利用算法技术识别互联网中的热门新闻,然后分发给用户,抢占用户需求。
热点新闻的挖掘与提供极大地方便了用户对新闻信息的获取。然而,在海量数据中,能准确地挖掘到需要的热点新闻十分困难,传统方法通常采用人工监控互联网站上的新闻来判断热点新闻,这种方式显然需要较大人力成本,且时效性较差,相应地也降低了用户获取热点新闻的效率。还有通过简单聚类算法技术,利用爬虫技术实时抓取各个站点新闻,并通过聚类技术对新闻做聚类,但由于爬虫抓取范围较大,所以导致抓取效率较低,针对性不高。
发明内容
针对现有技术存在的不足,本发明提供了一种热点新闻抓取方法、装置及服务器,其应用时,可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。
第一方面,本发明提供一种热点新闻抓取方法,包括:
获取移动终端通知系统的通知服务类;
根据通知服务类抓取移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间;
判定通知实例对应的应用程序包名是否为目标应用程序包名;
当通知实例对应的应用程序包名与目标应用程序包名一致时,将通知实例与通知时间打包成格式数据包,并上传至服务器。
基于上述发明内容,通过获取移动终端通知系统的通知服务类,即可通过通知服务类很方便地抓取到移动终端通知栏的通知实例,以及通知实例对应的应用程序包名和通知时间,移动终端上某些固定应用程序的通知实例即为相应的热点新闻,获取到其通知实例对应的应用程序包名即可判定其是否为目标应用程序,当判定对应应用程序包名为目标应用程序包名后就可以将其通知实例和通知时间单独提取出来,整理成格式数据包后上传至服务器进行及时的保存。通过这样的处理过程,可以有针对性地抓取移动终端上相应应用程序的热点新闻,提高抓取效率。
在一个可能的设计中,所述通知实例包含通知标题、通知内容及通知子内容,所述将通知实例与通知时间打包成格式数据包,包括:
汇总通知标题、通知内容、通知子内容及通知时间;
获取数据模板,将通知标题、通知内容、通知子内容及通知时间整理成JSON数据格式填入数据模板;
将填写完成的数据模板压缩为数据包,得到格式数据包。
在一个可能的设计中,所述方法还包括:将格式数据包进行密钥加密,并标记加密算法标识后上传至服务器。
在一个可能的设计中,所述方法还包括:
接收服务器反馈的数据传输结果,所述数据传输结果表征数据传输完成或数据传输失败;
在数据传输失败时,重新加密格式数据包并上传至服务器。
在一个可能的设计中,所述判定通知实例对应的应用程序包名是否为目标应用程序包名,包括:
获取预置目标应用程序包名来构建目标应用程序包名清单;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川封面传媒有限责任公司,未经四川封面传媒有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011041937.5/2.html,转载请声明来源钻瓜专利网。