[发明专利]一种个性化新闻推荐方法及系统、存储介质在审
申请号: | 201811574596.0 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109800350A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 汪良果 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335;G06F16/34;G06F16/35 |
代理公司: | 北京中知法苑知识产权代理事务所(普通合伙) 11226 | 代理人: | 李明 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化新闻 结构化信息 存储介质 新闻简报 归类 去重 实时新闻 所属领域 用户数据 原始链接 自动生成 句子 资讯 查找 更新 分析 | ||
1.一种个性化新闻推荐方法,其特征在于,包括以下步骤:
获取实时新闻资源,并进行去重;
对去重后的新闻按照内容所属领域的不同进行归类;
选取将要推送给当前用户的新闻,提取关键句子,生成摘要;所述将要推送给当前用户的新闻,是指根据对收集到的实时或历史用户数据进行分析,判断出当前用户感兴趣的新闻领域,而归类于该领域的新闻;
将所述摘要和其他结构化信息编辑成新闻简报,推送给当前用户,所述其他结构化信息包括新闻类别、标题和新闻原始链接。
2.根据权利要求1所述的个性化新闻推荐方法,其特征在于:所述去重的过程具体为,计算出每篇新闻的关键词,从中各选取相同个数的关键词,合并为一个集合,计算每篇新闻对于该集合中的所述关键词的词频,各自生成词频向量,通过欧氏距离或余弦距离求得两条新闻的两个所述词频向量的余弦相似度,如果超过设定的阈值则该两条新闻为相似新闻,否则认为不相似。
3.根据权利要求1所述的个性化新闻推荐方法,其特征在于:所述对去重后的新闻按照内容所属领域的不同进行归类具体为,首先自定义无交叉的新闻类别L1、L2...Ln,n为自然数,然后对每种类别通过人工标注的方式标注一定量的样本数据,最后使用所述样本数据训练分类模型,并用训练好的分类模型对未知新闻进行分类。
4.根据权利要求1所述的个性化新闻推荐方法,其特征在于,生成摘要的具体过程为:
对新闻内容进行分句,对每个句子进行分词、停用词过滤;
计算每个单词的重要性,提取关键短语;
计算每两个句子的相似度,计算每个句子结点的得分直到收敛;
选取得分最高的P个句子作为摘要,1<P≤4。
5.一种个性化新闻推荐系统,其特征在于:包括
实时新闻获取模块,用于收集实时新闻资源;
新闻去重模块,将所述实时新闻资源进行去重处理;
新闻归类模块,用于将去重后的新闻按照内容所属领域的不同进行归类;
用户数据获取模块,用于获取实时或历史用户数据;
用户数据分析模块,用于分析用户数据,判断出当前用户感兴趣的新闻领域;
摘要生成模块,用于根据当前用户的兴趣选取将要推送给用户的新闻,提取关键句子,生成摘要;
简报生成模块,用于将所述摘要和其他结构化信息编辑成新闻简报,所述其他结构化信息包括新闻类别、标题和新闻原始链接;以及
简报推送模块,用于将所述简报推送给当前用户。
6.一种存储介质,其特征在于:包括存储在该存储介质中的程序,在所述程序运行时控制所述存储介质所在的设备执行权利要求1~4任一项所述的个性化新闻推荐方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811574596.0/1.html,转载请声明来源钻瓜专利网。