[发明专利]一种基于双向LSTM的相关新闻挖掘方法及系统有效

专利信息
申请号: 201811503086.4 申请日: 2018-12-10
公开(公告)号: CN109582874B 公开(公告)日: 2020-12-01
发明(设计)人: 安鸣佳 申请(专利权)人: 北京搜狐新媒体信息技术有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06N3/04
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 古利兰;王宝筠
地址: 100190 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双向 lstm 相关 新闻 挖掘 方法 系统
【说明书】:

本申请公开了一种基于双向LSTM的相关新闻挖掘方法及系统,方法包括:获取用户点击的新闻序列,对新闻序列中的新闻id进行嵌入,得到新闻id的向量;基于新闻id的向量,利用聚类算法生成的搜索树得到新闻id的相关新闻。本申请基于用户点击行为的双向LSTM神经网络模型的相关新闻挖掘方法,相比基于内容的精确匹配的方法,有效的提升了用户体验,减少了由于内容冗余造成的新闻资源位浪费并加快了相关新闻的计算速度。同时,利用搜索树检索相关新闻,速度快于传统穷举法,有效的节省了计算时间。

技术领域

本申请涉及信息处理技术领域,尤其涉及一种基于双向LSTM(Long Short-TermMemory,长短期记忆网络)的相关新闻挖掘方法及系统。

背景技术

随着互联网的发展,业务量的急剧增长,如何让机器更智能化,高效化的学习,代替人类并更好的去完成一些高质量的工作(如,新闻质量评分,个性化推荐,计算广告业务等等),是当今工业界核心的问题之一。

机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

机器学习虽然发展了几十年,但还是存在很多没有良好解决的问题,例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前通过机器学习去解决这些问题的思路都是这样的(以视觉感知为例子):

从开始的通过传感器来获得数据,然后经过预处理、特征提取、特征选择,再到推理、预测或者识别;最后一个部分,也就是机器学习的部分,绝大部分的工作是在这方面做的,也存在很多的报道和研究。

而中间的三部分,概括起来就是特征表达。良好的特征表达,对最终算法的准确性起了非常关键的作用,而且系统主要的计算和测试工作都耗在这一大部分。但,这块实际中一般都是人工完成的,靠人工提取特征。

传统的机器学习方法需要手工地选取特征,是一件非常费力、启发式(需要专业知识)的方法,能不能选取好很大程度上靠经验和运气,而且它的调节需要大量的时间。

在新闻推荐领域中,新闻的相关性计算尤为重要,新闻特征较多,如关键字、话题、标题词、所属频道、媒体等等,通常几百万至上千万不等。

传统的新闻相关性计算方式多采用精准匹配等方式进行计算,存在以下缺点:

由于新闻篇数多、特征总量大,利用特征精准匹配的方法计算每篇新闻的top n个相关新闻耗时较长,如果新闻总量是n,特征数为m,那么时间复杂度为O(m*n2)。而且过于精准的挖掘方法泛化性差,造成相同内容重复和冗余,不利于用户兴趣探索,例如《今年底宁夏所有开发区污水集中处理设施全部投用》和《今年年底宁夏所有开发区污水集中处理设施全部投用》仅仅差了一个字,内容高度重合,不应反复给用户展示。而且通过内容相关很难挖掘出一些热点新闻,给用户体验带来了极大的负面影响。传统的穷举搜索,速度慢、效率低。

因此,如何解决现有的相关新闻挖掘的缺陷,是一项亟待解决的问题。

发明内容

有鉴于此,本申请提供了一种基于双向LSTM的相关新闻挖掘方法,基于用户点击行为的双向LSTM的相关新闻挖掘方法,相比基于内容的精确匹配的方法,有效的提升了用户体验,减少了由于内容冗余造成的新闻资源位浪费并加快了相关新闻的计算速度。

本申请提供了一种基于双向LSTM的相关新闻挖掘方法,包括:

获取用户点击的新闻序列;

对所述新闻序列中的新闻id进行嵌入,得到新闻id的向量;

基于所述新闻id的向量,利用聚类算法生成的搜索树得到所述新闻id的相关新闻。

优选地,所述获取用户点击的新闻序列包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811503086.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code