[发明专利]一种基于日志挖掘的搜索引擎用户个性化需求提供方法有效

专利信息
申请号: 201210583024.5 申请日: 2012-12-25
公开(公告)号: CN103020289A 公开(公告)日: 2013-04-03
发明(设计)人: 陈益;解正宇;陈岭;刘荣游 申请(专利权)人: 浙江鸿程计算机系统有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 310012 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 日志 挖掘 搜索引擎 用户 个性化 需求 提供 方法
【说明书】:

技术领域

发明涉及互联网信息技术领域,尤其涉及一种基于日志挖掘的搜索引擎用户个性化需求提供方法。

背景技术

随着互联网信息的迅速膨胀,搜索引擎成为引导用户获得信息的主要途径,尽管以百度、Google为代表的搜索引擎取得了巨大的成功,但其仍然无法满足日益增长的用户信息需求和高效方便获取信息资源的要求。如何向网络用户提供优质的检索服务,如何从用户的角度出发给出用户满意的结果,从而吸引更多客户使用,一直是商用搜索引擎所关注的重点。

传统的搜索引擎质量评价方法一般仅考虑单个查询返回结果页面的质量,如相关性、准确性、时效性、权威性、满意度等,其中满意度给出的是主观的综合评价。然而,用户使用搜索引擎时的信息需求有时会是复杂和模糊的,搜索过程中可能出现关键词的修改和重查询。因此,单个查询返回结果页面的质量并不能代表用户信息需求的满意程度,以单个查询返回结果页面的质量作为评价搜索引擎质量的指标也不能很好的促进搜索引擎的性能优化。

发明内容

为了解决上述问题,本发明使用用户满意度作为搜索引擎的评价指标,即用户信息需求满意度,本发明采用马尔可夫模型来对用户的搜索行为进行建模,包括表示用户满意和不满意的行为模型;用最大似然估计来计算用户的搜索行为分别从满意和不满意行为模型中生成的最大似然估计;最后用最大似然估计比来评估用户的满意程度,在复杂、模糊的搜索引擎用户行为信息日志中来评估用户满意度,分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。

本发明是通过以下技术方案达到上述目的:一种基于日志挖掘的搜索引擎用户个性化需求提供方法,包括数据预处理阶段、训练阶段和评估阶段,数据预处理阶段包括以下步骤:

1)基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束;

2)将归类的用户行为数据选取一部分作为训练样本数据,按照人工标注的结果分为满意样本数据和不满意样本数据两部分,并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息。

3)将上述训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息;

训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段,训练满意行为模型包括以下步骤:

1)读取经过数据预处理的满意用户行为训练样本数据;

2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;

3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;

4)根据马尔可夫模型,用最大似然估计来计算满意行为模型的概率转移矩阵;

训练不满意行为模型包括以下步骤:

1)读取经过数据预处理的不满意用户行为训练样本数据;

2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;

3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;

4)根据马尔可夫模型,用最大似然估计来计算不满意行为模型的概率转移矩阵;

评估阶段包括以下步骤:

1)输入用户行为数据并将其经规范化处理为包括用户、信息需求和用户行为类型三类信息的用户规范化行为数据;

2)输入从上述训练阶段得到的满意和不满意行为模型的概率转移矩阵;

3)以一个信息需求为单位计算当前的用户规范化行为数据从满意和不满意行为模型中生成的最大似然估计;

4)计算从满意和不满意行为模型中生成的最大似然估计的比值,将比值与设定的阈值比较判断用户行为的满意度;

5)根据判断得出用户行为的满意度分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。

本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果,从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。

附图说明

图1:基于行为日志数据挖掘的搜索引擎用户个性化需求提供方法流程图;

图2:训练样本数据分类图;

图3:数据规范化流程图;

图4:训练用户满意度模型流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江鸿程计算机系统有限公司,未经浙江鸿程计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210583024.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top