[发明专利]基于强化学习的网页页面主动式检索系统无效
申请号: | 200810240358.6 | 申请日: | 2008-12-17 |
公开(公告)号: | CN101751437A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 杨彦武;张文生;李益群;肖宪;刘琰琼;梁玉旋 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N1/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周国城 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 网页 页面 主动 检索系统 | ||
技术领域
本发明涉及Web用户的主动式检索技术领域,尤其涉及一种基于强化学习的网页页面主动式检索系统,用于实现对Web用户进行最能体现用户兴趣模式的Web页面推荐。
背景技术
马尔科夫决策过程包含一个环境状态集S,方法行为集合A,奖赏函数R和状态转移函数P。奖赏函数R(s,a,s′)是在状态s的情形下采用动作a,环境状态转移到s′获得的瞬时奖赏值;记P(s,a,s′)在状态s的情形下采用动作a使环境状态转移到s′的概率。马尔科夫决策过程的本质是:当前状态向下一状态转移的概率和奖赏值只和当前状态以及当前状态下选择的动作有关,而与以前的历史状态以及历史动作无关。因此在状态转移概率函数P和奖赏函数R都已经确定的环境模型的知识框架下,动态规划的技术可以用来求解最优策略。然而在现实世界中的大部分情况下,状态转移概率函数P和奖赏函数R的环境模型却难以确定,强化学习主要是着重研究奖赏函数和状态转移函数未知的情况下,如何学习最优行为策略。
强化学习(reinforcement learning,又称再励学习,评价学习)是机器学习方法的一个重要的分支,在智能控制机器人及分析预测等领域有许多应用。强化学习是对智能系统中从环境到行为映射的学习,以使累积的奖赏(强化信号)函数值最大,强化学习不同于传统机器学习中的监督学习主要表现在教师信号上,强化学习中由环境提供的强化信号是对做出的动作作出一种评价作为奖赏值,而不是告诉直接强化学习系统(reinforcementlearning system)如何去产生正确的动作。由于外部环境提供的信息较少,强化学习系统必须靠自己获得的经历进行学习。通过这种方式,强化学习系统在行动-评价的环境中获得计算基础,提出改进的行动方案以适应环境。目前的强化学习的学习技术大致可分成两类:一是搜索智能系统的行为空间,从而发现可以做出的最优的行为。典型的技术如遗传算法等搜索技术;二是采用基于统计的技术和动态规划的思想来估计和预测在某一确定环境状态下的价值函数值,从而通过获取的价值函数来确定最优行为。
在强化学习需要解决的问题中,由于环境是不确定的,策略π指导下的每一次学习所得到的Rt有可能是不相同的。因此在s状态下的值函数要考虑在不同学习中所有可能的返回函数的数学期望值。实际中经常采用逼近方法进行值函数的估计,一种最主要的方法就是Monte Carlo采样方法。将Monte Carlo采样方法和动态规划技术结合起来,通过多次试验,用实际获得的奖惩返回值去逼近真实的状态值函数,Monte Carlo采样方法通常是采用一次学习循环所获得的值函数去逼近实际的值函数,而强化学习方法使用下一状态的值函数(即Bootstrapping方法)和当前获得的瞬时奖赏来逼近当前状态值函数。强化学习方法需要多次学习循环才能最终逼近实际的值函数。
信息检索(Information Retrieval),通常指的是基于文本的信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史发展进度来看,信息检索经历了人类手工检索,计算机自动化检索,网络智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象也从封闭、比较稳定一致、由独立的数据库集中管理信息内容扩展到开放、动态、快速、分布广泛、管理松散复杂的Web页面内容;原来的使用信息检索的用户为情报专业人员,现在的信息检索包括商务人员、管理人员、教师、学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及Web个性化的需要是目前信息检索技术发展的新趋势。现实世界中,目前存在较多基于统计方法的对于网络个性化的方法。但是这种方法自适应能力较差,并且不具备学习能力。然而强化学习的特点可以改进目前的这种基于统计方法的网络个性化分析方法。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种基于强化学习的Web主动式检索系统,以协助用户更方便的浏览Web,以及更准确的找到用户所需要的目标页面。
(二)技术方案
为达到上述目的,本发明提供了一种基于强化学习的Web主动式检索系统,该系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810240358.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:根据年度销售计划控制年度采购计划的方法
- 下一篇:电子记录显示手工签名的方法