[发明专利]一种新闻搜索方法及装置在审

专利信息
申请号: 201710156968.7 申请日: 2017-03-16
公开(公告)号: CN106940723A 公开(公告)日: 2017-07-11
发明(设计)人: 曹雪倩;安倩 申请(专利权)人: 北京搜狐新媒体信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 王宝筠
地址: 100084 北京市海淀区中*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 新闻 搜索 方法 装置
【说明书】:

技术领域

本申请涉及电子信息领域,尤其涉及一种新闻搜索方法及装置。

背景技术

与传统的网页检索不同,新闻搜索目前还没有完整通用的算法和模型。目前,对于新闻的搜索,主要基于PageRank算法,该算法的基本思想是:页面的重要程度用PageRank值来衡量。PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。

然而,基于PageRank算法的新闻搜索方法,仅依靠被引用的次数和与引用页面的重要程度筛选,而忽略了新闻的相关程度,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。

发明内容

本申请提供了一种新闻搜索方法及装置,目的在于解决如何提高新闻的搜索准确性的问题。

为了实现上述目的,本申请提供了以下技术方案:

一种新闻搜索方法,包括:

依据搜索关键词,得到与所述搜索关键词相关的候选项;

依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;

按照排序结果,展示搜索结果。

可选的,所述新闻的属性还包括:

新闻的媒体分数、被操作的次数以及被阅读的时长中的至少一项。

可选的,所述依据新闻的属性,确定所述候选项的属性分包括:

确定新闻经过平滑和时间衰减后的点击曝光率;

确定新闻的时间衰减分数,所述时间衰减分数用于表示所述新闻的实效周期;

获取所述新闻的媒体分数、被操作的次数以及被阅读的时长;

依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数。

可选的,所述确定新闻经过平滑和时间衰减后的点击曝光率包括:

新闻经过平滑和时间衰减后的点击率为其中,d为衰减系数,start为该新闻生成的起始时间,t表示当前时刻,dt-start-1为衰减幅度,clickt为t时刻的点击次数;

新闻经过平滑和时间衰减后的曝光率为其中,impt为t时刻的曝光次数。

可选的,所述依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数包括:

使用score=smoothScore*ruleScore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readTime计算所述候选项中的任意一项的分数,其中,smoothScore表示所述该新闻经过平滑和时间衰减后的点击曝光率,div为该新闻的时间衰减分数,readTime为平滑后的该新闻的被阅读时长,share为该新闻的分享数,comment该新闻的评论数,collection为该新闻的收藏数,praise为该新闻的点赞数。

可选的,所述平滑后的该新闻的被阅读时长的确定方法包括:

其中,allReadTime为该新闻被所有用户所阅读的总时长,allClick为该新闻所有的点击次数,pReadTime为该新闻虚拟的阅读时长,pClick为该新闻虚拟的点击次数。

可选的,在所述按照排序结果,展示搜索结果之前,还包括:

依据质量参数,确定所述排序结果中的各个候选项的质量分,所述质量参数包括新闻的长度、段落数、包括的图片以及标题的长度;

将所述候选项中的任意一项的质量分与该项的属性分相乘,得到总分;

依据所述候选项中每一项的总分,对所述候选项进行重排序,得到更新的排序结果。

一种新闻的搜索装置,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710156968.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top