[发明专利]一种新闻搜索方法及装置在审
申请号: | 201710156968.7 | 申请日: | 2017-03-16 |
公开(公告)号: | CN106940723A | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 曹雪倩;安倩 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 搜索 方法 装置 | ||
技术领域
本申请涉及电子信息领域,尤其涉及一种新闻搜索方法及装置。
背景技术
与传统的网页检索不同,新闻搜索目前还没有完整通用的算法和模型。目前,对于新闻的搜索,主要基于PageRank算法,该算法的基本思想是:页面的重要程度用PageRank值来衡量。PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
然而,基于PageRank算法的新闻搜索方法,仅依靠被引用的次数和与引用页面的重要程度筛选,而忽略了新闻的相关程度,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。
发明内容
本申请提供了一种新闻搜索方法及装置,目的在于解决如何提高新闻的搜索准确性的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种新闻搜索方法,包括:
依据搜索关键词,得到与所述搜索关键词相关的候选项;
依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;
按照排序结果,展示搜索结果。
可选的,所述新闻的属性还包括:
新闻的媒体分数、被操作的次数以及被阅读的时长中的至少一项。
可选的,所述依据新闻的属性,确定所述候选项的属性分包括:
确定新闻经过平滑和时间衰减后的点击曝光率;
确定新闻的时间衰减分数,所述时间衰减分数用于表示所述新闻的实效周期;
获取所述新闻的媒体分数、被操作的次数以及被阅读的时长;
依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数。
可选的,所述确定新闻经过平滑和时间衰减后的点击曝光率包括:
新闻经过平滑和时间衰减后的点击率为其中,d为衰减系数,start为该新闻生成的起始时间,t表示当前时刻,dt-start-1为衰减幅度,clickt为t时刻的点击次数;
新闻经过平滑和时间衰减后的曝光率为其中,impt为t时刻的曝光次数。
可选的,所述依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数包括:
使用score=smoothScore*ruleScore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readTime计算所述候选项中的任意一项的分数,其中,smoothScore表示所述该新闻经过平滑和时间衰减后的点击曝光率,div为该新闻的时间衰减分数,readTime为平滑后的该新闻的被阅读时长,share为该新闻的分享数,comment该新闻的评论数,collection为该新闻的收藏数,praise为该新闻的点赞数。
可选的,所述平滑后的该新闻的被阅读时长的确定方法包括:
其中,allReadTime为该新闻被所有用户所阅读的总时长,allClick为该新闻所有的点击次数,pReadTime为该新闻虚拟的阅读时长,pClick为该新闻虚拟的点击次数。
可选的,在所述按照排序结果,展示搜索结果之前,还包括:
依据质量参数,确定所述排序结果中的各个候选项的质量分,所述质量参数包括新闻的长度、段落数、包括的图片以及标题的长度;
将所述候选项中的任意一项的质量分与该项的属性分相乘,得到总分;
依据所述候选项中每一项的总分,对所述候选项进行重排序,得到更新的排序结果。
一种新闻的搜索装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710156968.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能电池片导线的导向辊
- 下一篇:节能灯打胶机