[发明专利]一种基于日志挖掘的搜索引擎用户个性化需求提供方法有效
申请号: | 201210583024.5 | 申请日: | 2012-12-25 |
公开(公告)号: | CN103020289A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 陈益;解正宇;陈岭;刘荣游 | 申请(专利权)人: | 浙江鸿程计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 日志 挖掘 搜索引擎 用户 个性化 需求 提供 方法 | ||
1.一种基于日志挖掘的搜索引擎用户个性化需求提供方法,其特征在于包括数据预处理阶段、训练阶段和评估阶段;数据预处理阶段包括以下步骤:
1)基于搜索引擎日志数据分析将用户行为数据按类型归类;
2)将归类的用户行为数据选取一部分作为训练样本数据,按照人工标注的结果分为满意样本数据和不满意样本数据两部分,并包括用户、信息需求、用户满意度、用户搜索类型和用户点击类型五类信息;
3)将上述将训练样本数据规范化处理为包括用户、信息需求和用户行为类型三类信息;训练阶段包括训练满意行为模型和训练不满意行为模型两个子阶段,训练满意行为模型包括以下步骤:
1)读取经过数据预处理的满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算满意行为模型的概率转移矩阵;
训练不满意行为模型包括以下步骤:
1)读取经过数据预处理的不满意用户行为训练样本数据;
2)统计已读满意用户行为训练样本数据出现的行为的类型及该类型行为出现的次数;
3)统计已读数据出现的行为转移的类型及该行为转移出现的次数;
4)根据马尔可夫模型,用最大似然估计来计算不满意行为模型的概率转移矩阵;
评估阶段包括以下步骤:
1)输入用户行为数据并将其经规范化处理为包括用户、信息需求和用户行为类型三类信息的用户规范化行为数据;
2)输入从上述训练阶段得到的满意和不满意行为模型的概率转移矩阵;
3)以一个信息需求为单位计算当前的用户规范化行为数据从满意和不满意行为模型中生成的最大似然估计;
4)计算从满意和不满意行为模型中生成的最大似然估计的比值,将比值与设定的阈值比较判断用户行为的满意度;
5)根据判断得出用户行为的满意度分析出用户的个性化需求,并通过搜索引擎提供给用户个性化需求的结果。
2.根据权利要求1所述的一种基于日志挖掘的搜索引擎用户个性化需求提供方法,其特征在于,数据预处理阶段步骤1)所述的基于搜索引擎日志数据分析将用户行为数据按类型归类为查询、搜索结果列表翻页、相关搜索点击、快捷方式点击、拼写建议点击、算法搜索点击、算法搜索分享点击、算法搜索预览点击、其他类型的点击和信息需求的结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江鸿程计算机系统有限公司,未经浙江鸿程计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210583024.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动断电电动车充电器
- 下一篇:卡位式底部充电装置