[发明专利]估计对象行为的计算机方法和系统、预测偏好的系统和介质有效

申请号：	201580042022.7	申请日：	2015-08-07
公开（公告）号：	CN106575382B	公开（公告）日：	2021-12-21
发明（设计）人：	内部英治;铜谷贤治	申请（专利权）人：	学校法人冲绳科学技术大学院大学学园
主分类号：	G06N20/00	分类号：	G06N20/00;G06N7/00;G06F17/11;G06F17/18
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	吕俊刚;李艳芳
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	估计对象行为的计算机方法和系统、预测偏好的系统和介质。一种用于估计对象的成本函数和价值函数的逆向强化学习的方法包括：获取表示限定所述对象的行为的状态变量的改变的数据；将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：q(x)+gV(y)‑V(x)＝‑ln{pi(y\|x))/(p(y\|x)}(1)，其中，q(x)和V(x)分别指代状态x下的成本函数和价值函数，g表示贴现因子，并且p(y\|x)和pi(y\|x)分别指代学习前和学习后的状态转变概率；估计方程(1)中的密度比率pi(y\|x)/p(y\|x)；根据所估计的密度比率pi(y\|x)/p(y\|x)，使用最小二乘法来估计方程(1)中的q(x)和V(x)；以及输出所估计的q(x)和V(x)。
搜索关键词：	估计对象行为计算机方法系统预测偏好介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于学校法人冲绳科学技术大学院大学学园，未经学校法人冲绳科学技术大学院大学学园许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201580042022.7/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载