[发明专利]基于用户体验分析的深度强化学习式智能门锁系统及装置有效

申请号：	201810980348.X	申请日：	2018-08-28
公开（公告）号：	CN109243021B	公开（公告）日：	2021-09-17
发明（设计）人：	张智慧;李曼;白燕青;余利;徐立;孙爱芬	申请（专利权）人：	余利
主分类号：	G07C9/00	分类号：	G07C9/00;G06N20/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	430061 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户体验分析深度强化学习智能门锁系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于用户体验分析的深度强化学习式智能门锁系统及装置，其特征在于，包括微处理器、环境识别模块、智能学习模块、供电模块、语音通信模块、带人脸/指纹/密码锁芯、步进电机和反锁臂，所述环境识别模块，用于对环境的感知和检测，如开锁人的人脸、语音以及指纹信息的识别和记录，以及周围环境的探测，将开锁人的行为传入到智能学习模块；

所述智能学习模块包括深度强化学习单元和用户体验质量分析决策单元构成，采用深度强化学习机制，通过用户行为、当前时刻门锁系统的状态和移动边缘云的状态，即学习环境的Q函数值，反馈给深度强化学习单元，根据用户所采取的开锁或关锁的行为反馈，采用改进的线上线下学习算法对下一时刻的动作进行预测评估，如下次智能开/关门锁会得到期望的回报，通过在经验池中经验数据的搜索学习，找到最优的Q函数值，从而对打开/关闭门锁进行决策，并将信息反馈给微处理器，由微处理器发出指令，驱动步进电机，由电机执行开/关门锁的动作；

所述Q函数值,即强化学习中的Q学习的函数值，其目标是在策略π即学习机制π下，将学习环境的状态转换成最优的行为，从而对不同用户的状态，在这种状态-动作空间做出开/关锁的智能决策，Q函数目标函数值表示为式(1)：

其中，θ表示Q_Ω(s,a)函数的权重，Q_Ω(s,a)表示改进的低维度的Q函数，表示矩阵转置，s表示系统当前的状态，a表示系统执行的动作，在式(1)中，θ由改进的权重式(2)计算得出：

其中，ξ是Q函数更新的学习率，ξ∈[0,1)，其根据改进的经典贝尔曼方程式(3)可以得到ξ的经验值，ξ＝0.99；

表示从长期看，所获得的期望的奖励；R是在下一时刻即t+1时刻的立即回报，s′是下一状态；Pr(s′|s,a)是转移概率；Q函数是当系统处于状态s，采用相应的行为a的期望折扣累计代价或者期望折扣累计回报；和分别是状态和行为的可行解集；β是折扣因子，表示Q函数的学习率，其范围是[0,1)；Q函数学习的最优策略通过式(4)获得：

所述(2)式中δ表示：时间差分误差即TD error，即下一时刻的近似Q函数的近似值与当前值的差，通常用式(5)进行估计：

所述(2)式中的表示资格迹函数，由于强化学习具有延迟赏罚的特点，即时收益R，在所有后续时隙中，当前行为可能对当前即刻奖赏或者即刻惩罚和后续的奖赏或者后续的惩罚有影响，因此，引入一个资格迹的方法，所述资格迹的方法是通过对先前已达的状态和行为分配信用或者惩罚，临时记录已达到的Q函数的历史，从而提供更高效的权值参考，其原理是：资格迹的每一步都积累已达的状态和行为，若当前步的状态值已达到Q值，则资格迹增加；若当前步的状态值未达到Q值，则资格迹将会逐渐下降，意味着当前已达的状态和行为更有资格参加学习过程；所述(2)式中的表示在瞬时t时刻关于用户资格迹的特征向量，资格迹的更新方程如式(6)表示，

其中，l∈[0,1)，表示迹-延迟参数，l＝0，所述的资格迹将更新为当前达到的Q值；所述改进的线上线下学习算法的步骤如下：

1)线上学习阶段：

S1：初始化参数；

S2：若tT；其中，t表示时刻，T表示一个周期，即最大的时隙数，t∈{1,2,…,T}；若成立，则转S3，若不成立，则转S8；

S3：

利用概率ε贪婪选择下一时刻的行为，获得相应的回报和下一时刻的状态信息；

S4：观测学习环境状态和即刻代价或者回报R(t)；

S5：将四元组(s,a,R(t),s′)保存到经验回放池；

S6：判断Q函数是否收敛，若没有收敛，则根据式(7)更新Q函数,转S7；若收敛，则转到M1；

S7：返回Q函数值；

S8:进入下一周期；

2)线下学习阶段：