[发明专利]一种个性化新闻推荐方法及系统、存储介质在审
申请号: | 201811574596.0 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109800350A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 汪良果 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335;G06F16/34;G06F16/35 |
代理公司: | 北京中知法苑知识产权代理事务所(普通合伙) 11226 | 代理人: | 李明 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化新闻 结构化信息 存储介质 新闻简报 归类 去重 实时新闻 所属领域 用户数据 原始链接 自动生成 句子 资讯 查找 更新 分析 | ||
本发明公开一种个性化新闻推荐方法及系统、存储介质,包括获取实时新闻资源,并进行去重;对去重后的新闻按照内容所属领域的不同进行归类;选取将要推送给当前用户的新闻,提取关键句子,生成摘要;所述将要推送给当前用户的新闻,是指根据对收集到的实时或历史用户数据进行分析,判断出当前用户感兴趣的新闻领域,而归类于该领域的新闻;将所述摘要和其他结构化信息编辑成新闻简报,推送给当前用户,所述其他结构化信息包括新闻类别、标题和新闻原始链接。本发明通过自动生成和更新新闻简报并推送给用户,能够极大的减少用户在海量资讯中查找感兴趣的新闻的时间。
技术领域
本发明涉及数据处理技术领域,尤其是一种个性化新闻推荐方法及系统、存储介质,可应用于个性化推荐、情报收集等领域。
背景技术
随着信息技术的发展,当前已经从信息匮乏的时代步入信息超载的时代,互联网上存在海量资讯信息,如何以最少的时间获取感兴趣领域的精准化资讯内容变得越来越困难。新闻个性化推荐,能够按照不同用户的需求推荐相关的新闻给用户,能极大的减轻用户寻找兴趣领域资讯的负担。新闻简报以摘要的形式概括了新闻事件,能够进一步节省用户的时间,是信息超载时代资讯获取的高效方式。新闻简报不仅能够作为独立应用,还能嵌入门户网站的资讯模块,以及作为情报系统、素材搜集的辅助模块,具有良好的应用前景。
然而,当前的新闻推荐系统虽然能够按照客户需求个性化的提供新闻推荐,但很少会提供针对用户感兴趣的领域的新闻简报定时梳理更新的功能。即能够及时获取最新的新闻数据,实现自动分类后生成摘要简报并推送给客户。
现有技术中的新闻推荐方法通过预置的新闻相关条件,对用户是否存在该当前输入内容相关的新闻需求进行准确的识别,只有该当前输入内容符合预置的新闻相关条件时才会进行新闻推荐,并且,待推荐的目标新闻所基于的新闻关键词是与该当前输入内容相匹配的;最后向当前用户推荐目标新闻。该方法虽然能够实现新闻内容的推荐,但是推荐的仍然是完整的新闻,在数据庞大时,推荐的结果依然非常庞大,因此需要进一步对生成的文本进行压缩。
还有的现有技术获取最新的新闻内容,对于实时新闻进行增量计算及分类、客户端采集用户的行为日志,并上报至后台服务端进行分析,后台服务端同时根据用户画像及用户的行为计算用户的实时内容偏好,后台服务端分析后,根据用户的实时内容偏好找出匹配且分类好的实时新闻内容并推送生成的内容给客户端最后客户端对生成的内容进行展示。虽然增加了分类的功能,但推荐的仍然是完整的新闻。用户只有在阅读了完整新闻之后才会了解新闻内容,很多时候会浪费时间在不感兴趣的新闻咨询上。
发明内容
为了解决现有技术中的上述不足,本发明提供一种个性化新闻推荐方法,可按照自定义的领域范围推送相关的新闻简报,能够进一步节省用户的时间,是信息超载时代资讯获取的高效方式。
本发明采用的技术方案包括以下步骤:
获取实时新闻资源,并进行去重;对去重后的新闻按照内容所属领域的不同进行归类;选取将要推送给当前用户的新闻,提取关键句子,生成摘要;所述将要推送给当前用户的新闻,是指根据对收集到的实时或历史用户数据进行分析,判断出当前用户感兴趣的新闻领域,而归类于该领域的新闻;将所述摘要和其他结构化信息编辑成新闻简报,推送给当前用户,所述其他结构化信息包括新闻类别、标题和新闻原始链接。本发明的个性化新闻推荐方法通过自动将实时新闻资源分类、提取摘要、根据当前用户感兴趣的领域生成相应的新闻简报最终推送给当前用户,避免了用户在海量新闻中寻找自己感兴趣新闻,自动过滤垃圾新闻,且将新闻进一步以结构化的简报形式呈现在用户面前,大大节省了用户浏览新闻的时间,如果想了解某条新闻的详细内容,则可以通过简报中的新闻链接进一步获取。
进一步,所述去重的过程具体为,计算出每篇新闻的关键词,从中各选取相同个数的关键词,合并为一个集合,计算每篇新闻对于该集合中的所述关键词的词频,各自生成词频向量,通过欧氏距离或余弦距离求得两条新闻的两个所述词频向量的余弦相似度,如果超过设定的阈值则该两条新闻为相似新闻,否则认为不相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811574596.0/2.html,转载请声明来源钻瓜专利网。