[发明专利]一种新闻实时推荐系统及其方法在审
申请号: | 201611138281.2 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106599174A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 侯朋;李勇波;孙傲冰;季统凯;张恒 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广东莞信律师事务所44332 | 代理人: | 余伦 |
地址: | 523808 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 实时 推荐 系统 及其 方法 | ||
技术领域
本发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。
背景技术
随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。
发明内容
本发明解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。
本发明解决上述技术问题的技术方案是:
所述的系统包括数据采集层、数据处理层、实时推荐层;
所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;
所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;
所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用;
所述的数据处理层按照如下步骤处理数据:
第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;
第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;
所述的推荐层按照如下步骤运行:
第一步,分别加载新闻数据集与用户点击数据集;
第二步,对数据集进行分解;
第三部,设置模型参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算RSME;
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:
第一步,采用正则表达式去除文本中html标签;
第二步,采用最大路径算法对标签后的文本进行分词;
第三步,分词后进行实体抽取;
第四步,对抽取的关键词进行排名;
第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:
di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,
第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;
第七步,对计算结果持久化到数据库。
所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611138281.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:歌词匹配方法及终端
- 下一篇:网页元素的显示处理方法及装置