[发明专利]一种基于互联网信息的推荐系统与方法有效

专利信息
申请号: 202010672160.6 申请日: 2020-07-14
公开(公告)号: CN111831922B 公开(公告)日: 2021-02-05
发明(设计)人: 胡锦生;李国峰;熊雁;何茜 申请(专利权)人: 深圳市众创达企业咨询策划有限公司
主分类号: G06F16/9536 分类号: G06F16/9536;G06F40/289;G06F40/216
代理公司: 深圳市辉泓专利代理有限公司 44510 代理人: 刘海军;孟强
地址: 518000 广东省深圳市南山区桃*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互联网 信息 推荐 系统 方法
【说明书】:

发明提出一种基于互联网信息的推荐系统和方法,通过设置较之现有技术尤佳的分离加权模块以及加权重构,并引入基于第一和第二上下文的中心归置步骤,实现召回前的准确判决。同时引入独特的基础推荐和推荐加扰,诉求为推荐结果建立自适应推荐干扰并向用户传递此生推荐结果组合而成的推荐页面,实现由检索到推荐的新一代互联网数据流检索、抓取和召回技术流程。

技术领域

本发明属于新一代计算机信息技术领域,尤其涉及一种互联网信息的推荐系统与方法。

背景技术

在大数据时代,互联网信息种类繁多,难以计数,通过互联网执行有效的信息检索和推荐,成为了网络技术应用以及将互联网信息进行本地化、行业化实施的重要过程,例如通过检索有用的互联网信息指导IT、金融、路桥建设、市政等行业。

使用搜索对互联网信息进行锚定,并基于搜索结果查看推荐内容,是一种较容易被用户接受的信息推荐方法。

一个完整的搜索引擎往往包含了比较多的复杂模块,每个模块相互作用、兜底组成了我们使用的搜索引擎。抽象起来,召回和相关性是搜索系统里最重要的两个功能。召回是对于输入关键词,能够高效的获取关键词相关的候选集合。召回对于搜索引擎起着决定的作用。因为一旦相关的doc不能够被召回,即使后面的相关性排序做好的再好,也是徒劳。尤其在 doc资源不是很丰富的搜索场景下,召回更是一个比较明显的问题。

首先面临的问题是索引粒度问题。我们知道召回是通过倒排索引求交得到的,当以词为粒度,粒度较细,召回的文章的数目较多,但也可能由于倒排过长把一些相关的结果误截断;当以更大的phrase粒度,粒度较粗,召回的文章相对更相关,但也容易造成召回的结果过少。其次召回要能够保证有一定的召回文章数。query大部分模块都是为了解决召回问题,比如非必留,同义词,纠错。这是因为query和doc往往会存在描述不一致的问题。比如query 是“如何考取广大的研究生?”,但大部分doc都是讲广州大学的研究生。因此需要将广大同义成广州大学才能正确的召回一些相关文章。用户query也会存在一些错误query,比如刘德花,这时系统需要将query纠错成“刘德华”,才能正确的召回一些相关文章。用户query 也会存在和doc不是完全匹配的情况,尤其是对于长query,比如“无问西东电影的主演是谁?”,如果要求原搜索串完全命中,可能导致召回结果数过少或零结果。这里分析“电影”是一个冗余的信息,“是谁”是一个不重要的词,其参不参与倒排的求交并不影响召回doc的相关性,这时召回时可以直接把这2个词直接丢掉。

召回要保证结果的多样性。尤其是对于短query。因为相比于长query,短query往往是一些实体,召回doc数往往不是关键问题,用户也希望有一些惊喜的结果,避免搜索结构都是一些类似或重复结果。query事件扩展,query改写都是为了解决召回的多样性问题。比如当用户输入“武汉大学”,如果只是返回一些武汉大学的百科、高考录取信息,可能对用户并没有什么吸引力。这是如果能将武汉大学能和最近比较热的“武汉大学樱花”、“武汉大学和服”关联起来,可能会有侧重召回扩展内容相关的doc,增加结果多样性。

召回推荐的呈现,亦是互联网信息检索和召回的关键步骤。例如,当你打开一个资讯APP 刷新闻时,有没有想过,系统是如何迅速推送给你你想看的内容?资讯APP背后有一个巨大的内容池,系统是如何判断要不要将某条资讯推送给你的呢?这就是笔者今天想跟大家探讨的问题——推荐策略中的召回。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市众创达企业咨询策划有限公司,未经深圳市众创达企业咨询策划有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010672160.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top