[发明专利]基于排序学习技术的热门事件排名方法无效
申请号: | 201210560212.6 | 申请日: | 2012-12-20 |
公开(公告)号: | CN103077190A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 黄丛蕊;薛飞;付万宇;杨之光;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 排序 学习 技术 热门 事件 排名 方法 | ||
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种基于排序学习(learning torank)技术的热门事件排名方法。
背景技术
随着互联网的发展,新闻已经不再局限于电视、报纸这类传统传播方式,网络平台已经成为新闻传播的新途径。新闻网站、论坛、社交网络等都是发布新闻或发表言论的新型媒介。海量信息带来资讯价值的同时,也给用户阅读带来了不便,不利于用户关注热点事件,如何从海量信息中挖掘出热门新闻事件,使得用户不遗漏值得关注的新闻事件成为当下热门的研究点。
目前大部分的网站都在显著位置对新闻事件进行排名或推荐,有些网站只给出最新的新闻事件,有的则根据新闻的点击量给出简单的新闻事件排名,部分网站的热点新闻是由编辑提供的,新闻搜索则只能根据特定关键词给出相关新闻。由此可见,自动有效的热点新闻事件排名对于新闻的展示非常有必要。
排序学习(Learning to Rank),作为一种基于监督学习的排序方法,最早用于搜索引擎检索结果的排序。传统的排序方法一般是通过构造一个排序函数(Scoring Function)来实现,但由于影响排序的因素很多,对于传统的排序模型,参数增加会使传统的经验方法调整参数变得困难。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于排序学习(learning to rank)技术的热门事件排名方法,其利用机器学习技术,对互联网上的新闻数据进行处理,并根据事件的相关特征,获得对有新闻价值的新闻事件的排名,增强新闻的分类性。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于排序学习技术的热门事件排名方法,该方法包括:
A、在线上抓取新闻网页,通过聚类处理将新闻网页映射为事件的步骤;
B、为每个事件提取排名所需的各种特征项的步骤;通过特征提取,获得与新闻事件相关的各项特征,为计算模型做输入准备;
C、收集训练数据,并标注事件热度的步骤;
D、利用排序学习中的Pairwise方法训练出事件热度排名模型,利用该模型计算新闻事件的热度得分并存入事件索引,从而得到热门事件的排名信息。
其中:步骤B所述的特征项,主要包括事件中热词的比例、事件新闻数比例、知名媒体新闻比例、知名媒体评论比例、相关微博数量比例以及事件热度得分。
所述事件热度得分hot(d)具体为:
其中:decay(t)为衰减函数,d为当前时刻,ωt为事件在第t个时刻新增的报道量;ωd为事件在当前时刻的报道量。
本发明所提供的基于排序学习(learning to rank)技术的热门事件排名方法,具有以下优点:
本发明方法主要针对当前新闻网页资源过多,可读性差的现况,利用机器学习技术,利用聚类处理将新闻网页映射为事件,通过提取排名所需的各项特征,将新闻事件进行排名,增强新闻事件的分类性。利用该方法,能够增强可读性,不仅提高了用户体验,还提升了新闻价值。
附图说明
图1为本发明基于排序学习技术的热门事件排名方法。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210560212.6/2.html,转载请声明来源钻瓜专利网。