[发明专利]数据时效识别方法及装置在审
申请号: | 202010942695.0 | 申请日: | 2020-09-09 |
公开(公告)号: | CN112199565A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 周瑾萱 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906;H04L29/08 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李志新;刘亚平 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 时效 识别 方法 装置 | ||
本公开是关于一种数据时效识别方法及装置、内容推送方法及装置、电子设备和计算机可读存储介质。其中数据时效识别方法包括:获取待处理数据;根据待处理数据,利用网页爬虫获取关联数据;基于待处理数据与关联数据的语义关系确定待处理数据的时效信息,其中,时效信息包括旧闻或非旧闻。通过网络爬虫可以借助互联网信息,确定新闻内容的真实发布时间,通过确定出的真实发布时间进一步确定新闻内容的时效性,能够甄别出新闻内容的发布时间是否被内容合作方修改,同时对入库的新闻内容进行时效标注,便于后续推送时充分考虑时效问题。
技术领域
本公开涉及数据处理领域,尤其涉及数据时效识别方法及装置、内容推送方法及装置、电子设备和计算机可读存储介质。
背景技术
随着信息技术和互联网行业的快速发展,信息过载成为信息时代信息过于丰富的负面影响之一,用户如何从指数增长的海量信息中快速、准确地找到自己所需要的信息内容成为一个难题,推荐系统的诞生极大地缓解了这个困难。个性化系统正是信息时代发展的产物,它是建立在海量数据基础上的一种高级智能平台,依托该平台将海量信息内容和用户连接起来,实现千人千面的个性化信息服务。近年来,随着推荐技术研究和发展,其应用领域也越来越广泛,已经渗透到我们生活中的方方面面,比如MIUI浏览器和今日头条的新闻推荐、淘宝的商品推荐、网易云音乐的音乐推荐等。近年来深度学习的发展趋势也非常迅猛,在互联网、医疗、金融等各领域均取得了相当显著的成果,在国内外引起了广泛的关注。深度学习技术已经能够很好地解决自然语言处理、计算机视觉等领域当中的绝大多数问题,并且取得了领先水平,它给各领域带来了技术革新得益于大数据时代的高算力和强算法的强力支撑,推荐系统也借势于深度学习取得了令人振奋的成果。
目前,常见的内容推送系统,例如MIUI浏览器等,其信息流推荐借助于个性化推荐系统将内容和用户连接起来,用户的一次请求,该系统便实时地从成千上百万的内容当中筛选出几十条优质且与该用户匹配的内容推送给该用户,推荐内容的形式主要包括图文、视频等,各类资讯类APP已经成为用户获取热点内容的重要工具,深受大众的喜爱。该信息流产品本身的特点是整合了众多优质站点内容,用户可轻松获取价值阅读,但在进行内容接入时会存在一个问题,内容合作方修改内容的发布日期为近期时间,而这类文章可能是描述很久之前发生的热点事件,这类文章需要被提前过滤进而避免被推送给用户。目前的推送系统无法准确判断出推送内容的时效性,只能根据内容合作方推送的时间对内容进行筛选,常常会推送过期新闻,导致用户体验不佳。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据时效识别方法及装置、内容推送方法及装置、电子设备和计算机可读存储介质。
根据本公开实施例的第一方面,提供一种数据时效识别方法,方法包括:获取待处理数据;根据待处理数据,利用网页爬虫获取关联数据;基于待处理数据与关联数据的语义关系确定待处理数据的时效信息,其中,时效信息包括旧闻或非旧闻。
在一实施例中,在根据待处理数据,利用网页爬虫获取关联数据之前,方法还包括:响应于待处理数据包含日期信息,根据日期信息判断待处理数据的时效信息;响应于待处理数据不包含日期信息,执行根据待处理数据,利用网页爬虫获取关联数据的步骤。
在一实施例中,根据日期信息判断待处理数据的时效信息,包括:确定入库时间,入库时间为获取待处理数据的时间;响应于日期信息与入库时间的相差时间大于第一时间阈值,确定待处理数据为旧闻或执行根据待处理数据,利用网页爬虫获取关联数据的步骤;响应于日期信息与入库时间的相差时间小于或等于第一时间阈值,确定待处理数据为非旧闻。
在一实施例中,待处理数据包括第一标题信息;根据待处理数据,利用网页爬虫获取关联数据,包括:根据第一标题信息,通过搜索引擎,获取搜索结果;基于搜索结果,得到作为关联数据的第二标题信息及发布时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010942695.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置