[发明专利]一种基于用户阅读兴趣的相关事件生成方法无效
申请号: | 201210568745.9 | 申请日: | 2012-12-24 |
公开(公告)号: | CN103077193A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 薛飞;黄丛蕊;付万宇;杨之光;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 阅读 兴趣 相关 事件 生成 方法 | ||
技术领域
本发明涉及互联网搜索引擎和计算机网络技术领域,尤其涉及一种基于用户阅读兴趣的相关事件生成方法。
背景技术
随着互联网技术的高速发展,网络中充斥了大量的新闻信息。人们对于新闻事件阅读的需求体现在快速、准确等方面。此外,用户阅读体验的质量,也与阅读连贯性有着紧密的关系。阅读连贯性可以理解为用户浏览了当前事件之后,接着浏览与之相关的事件,进而逐步延长用户的停留时间。例如,当前事件为“北京雨雪将持续40小时降温幅度将达到8~10度”,该事件的关键词为“雨雪”、“降温”、“出行”等,通过用户历史点击数据可以赋予关键词权重,然后检索出本事件的相关事件。
现有的研究或专利成果主要着眼于单条舆情网页的相关推荐,而事件是一系列相似舆情文档的集合,因此事件级别更加抽象化。如何针对特定领域、准确检索和定位相关事件,进而找出用户所需的内容,具有现实的研究价值。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于用户阅读兴趣的相关事件生成方法,针对特定领域、准确检索和定位相关事件,进而找出用户所需的内容。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于用户阅读兴趣的相关事件生成方法,该方法包括:
A、对舆情文档进行数据预处理,得到事件的核心子集,并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤;
B、通过所述核心文档的正文对事件进行倒排索引,倒排word的初始权重值为TF-IDF值或Hit Number;后台记录用户点击事件E的时间轴TA和频率CF,并计算得到事件对应关键词的权重因子α(E);
C、对于历史事件集进行人工标注,标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子,通过映射将上述三部分信息即α(E),CF和TA,转化为事件E对应的实数值;
D、通过机器学习的方法,对步骤C中得到的训练数据进行回归运算,获得函数表达式的原型α(E)=m*TA+n*CF,并通过线性回归运算确定参数m和n的值;
E、通过上述函数表达式调整事件关键词在索引中的权重,然后对新事件的相关事件进行检索和展示。
其中,步骤B所述事件对应关键词的权重因子α(E):
α(E)=F(TA,CF);其中:α(E)>=1。
步骤D所述机器学习的方法,具体为支持向量机SVM法。
步骤E所述对新事件的相关事件进行检索和展示,具体为:当某一事件E被用户点击需要展示时,通过调整权重之后的事件关键词检索其相关事件,并且不断重复步骤B的如下过程:对获得的事件核心文档的正文进行倒排索引,倒排word的权重初始值为TF-IDF值或Hit Number。
本发明所提供的基于用户阅读兴趣的相关事件生成方法,具有以下优点:
通过分析用户对历史事件的点击记录,刻画出用户级别的关键词权重,从而给出当前事件更为合理的相关事件。应用本发明,能够针对特定的领域、准确检索和定位相关事件,进而找出用户所需的内容。譬如,对于特定领域如舆情系统,能够对用户所需信息的定位更加准确和清楚。应用在舆情、新闻检索等系统中,方便进行定位和更新用户的阅读兴趣,推出具有较好用户体验到相关事件,提高用户阅读的连贯性。
附图说明
图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
本发明基于用户阅读兴趣的相关事件生成方法,主要应用了以下几种技术:事件生成和合并技术、倒排索引技术以及事件关键词提取技术。其中事件生成和合并是相关事件推荐的数据基础,倒排索引和事件关键词提取是相关事件推荐的核心部分。
图1为本发明基于用户阅读兴趣的相关事件生成方法流程图。如图1所示,本发明方法包括如下步骤:
步骤11:对舆情文档进行数据预处理的步骤。具体为:对舆情文档进行在线抓取和信息抽取,抽取的内容包括文本特征(文本频率-反向文档频率值[TF-IDF,Term Frequency-Inverse Document Frequency]、文本结构刻画等)、关键词信息、敏感词信息、正文长度等。通过UPGMA等算法对这一过程中产生的文档进行聚类处理,得到具有一定泛化性的事件集合。对于聚类产生的事件进行数据处理,主要包括:最大核心子集生成、核心文档抽取、事件关键词生成等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210568745.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车前照灯的调光装置
- 下一篇:云计算管理系统以及云计算系统的管理方法