[发明专利]一种新闻实时推荐系统及其方法在审

专利信息
申请号: 201611138281.2 申请日: 2016-12-12
公开(公告)号: CN106599174A 公开(公告)日: 2017-04-26
发明(设计)人: 侯朋;李勇波;孙傲冰;季统凯;张恒 申请(专利权)人: 国云科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 广东莞信律师事务所44332 代理人: 余伦
地址: 523808 广东省东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 新闻 实时 推荐 系统 及其 方法
【说明书】:

技术领域

发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。

背景技术

随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。

发明内容

本发明解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。

本发明解决上述技术问题的技术方案是:

所述的系统包括数据采集层、数据处理层、实时推荐层;

所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;

所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;

所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。

所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:

第一步,获取待采集的URL;

第二步,通过数据路由器对URL进行过滤;

第三步,抓取页面数据;

第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;

第五步,自动文本特征提取,生成网页指纹;

第六步,检测是否为有相同文章;

第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;

第八步,用TF_IDF算法提取N个关键词;

第九步,找到与其重合度最高的m篇文章;

第十步,若其重合度大于c则归为相应主题数据库;

第十一步,建立倒排索引以供其他模块使用;

所述的数据处理层按照如下步骤处理数据:

第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;

第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;

所述的推荐层按照如下步骤运行:

第一步,分别加载新闻数据集与用户点击数据集;

第二步,对数据集进行分解;

第三部,设置模型参数;

第四步,训练推荐模型;

第五步,通过推荐模型对新闻进行预测评分;

第六步,计算RSME;

第七步,选择RSME最小值,得出最优推荐模型;

第八步,使用最优模型对用户推荐新闻,并保存在数据库中。

所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:

第一步,采用正则表达式去除文本中html标签;

第二步,采用最大路径算法对标签后的文本进行分词;

第三步,分词后进行实体抽取;

第四步,对抽取的关键词进行排名;

第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:

di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,

第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;

第七步,对计算结果持久化到数据库。

所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:

第一步,获取用户的注册信息;

第二步,对用户特征属性进行划分;

第三步,训练用户分类器;

第四步,使用分类器对用户进行分类;

第五步,对用户分类结果持久化到数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611138281.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top