[发明专利]基于强化学习的弱监督自学习方法在审
申请号: | 202010165953.9 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111401551A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 王成;柴松耀 | 申请(专利权)人: | 同济大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 李庆;王一琦 |
地址: | 200000 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 监督 自学习 方法 | ||
1.一种基于强化学习的弱监督自学习方法,包括步骤:
S1:收集获取并预处理弱监督数据,获得弱监督数据特征集合;
S2:基于所述弱监督数据特征集合及业务场景,对弱监督场景进行信息量化;
S3:基于深度强化学习算法训练强化学习模型,确定弱监督算法调度策略。
2.根据权利要求1所述的基于强化学习的弱监督自学习方法,其特征在于,所述S1步骤进一步包括步骤:
S11:数据清理,通过对原始所述弱监督数据进行填写缺失值、光滑噪声和识别解决数据不一致来实现数据的格式化、异常数据的清除错误纠正以及重复数据的清除;
S12:数据变换,通过平滑聚集,数据概化或规范化的方式将数据转换成学习模型需要的形式;
S13:数据表征,通过对业务属性进行邻接性,聚集性和结构性分析,对数据变换后的原始所述弱监督数据进行重新表征,获得弱监督数据特征集合。
3.根据权利要求2所述的基于强化学习的弱监督自学习方法,其特征在于,所述S2步骤进一步包括步骤:
S21:量化所述弱监督数据特征集合的内部信息,所述内部信息包括标签比率、标签的均衡度比率和数据的分布与标签的互信息量;
S22:量化弱监督业务场景的外部辅助量。
4.根据权利要求3所述的基于强化学习的弱监督自学习方法,其特征在于,所述S3进一步包括步骤:
S31:建立强化学习模型;所述强化学习模型包括一强化学习的状态集和一动作集,所述强化学习的状态集包括内部信息和外部辅助量,所述动作集包括若干弱监督算法;
S32:初始化重播缓冲区D,初始化一Q网络,记作Q,所述Q网络随机生成权重θ;初始化一target Q网络,记作所述target Q网络结构与所述Q网络完全相同,所述target Q网络随机生成权重θ′;θ′=θ;
初始化状态s={x1,x2,…,xn}。其中,x1,x2,…,xn为所述内部信息和所述外部辅助量;
S33:将当前所述状态s输入Q,输出所有动作对应的Q值Q(s,a;θ),a表示动作;基于ε-greedy策略选择一个所述动作a,有概率ε根据Q(s,a;θ)中最大值选择对应的所述动作,此时a=argmaxaQ(s,a;θ),而有概率(1-ε)随机选择一个所述动作;
S34:根据当前选择的动作a,使用对应的所述弱监督算法对当前所述弱监督数据特征集合进行标签增强,获得标签增强后的新数据集;
S35:评估所述新数据集的标签效用并反馈给智能体奖赏值,分别使用本次标签增强前的有标签数据和所述新数据集训练一个预测模型,并在一测试集结果进行预测,通过计算准确率、召回率和打扰率对两个模型的预测结果进行评估,并根据评估结果反馈给智能体一个奖励值;
准确率precision表达为公式(1):
召回率recall表达为公式(2):
打扰率disturb表达为公式(3):
其中,TP为模型将正类判定为正类的数量,FP为模型将负类判定为正类的数量,FN为模型将正类判定为负类的数量,TN为模型将负类判定为负类的数量;
S36:将本次转换存储在所述重播缓冲区D中,记作(st,at,rt,st+1),其中st为本次动作之前的环境,at为本次执行的动作,rt为奖励值,st+1为执行本次动作后的环境状态;
S37:从所述重播缓冲区D中随机抽取一个minibatch的样本,并使用梯度下降法对Q进行更新,损失函数Loss表达为公式(4):
Loss=(yj-Q(sj,aj;θ))2 (4);
其中,Q(sj,aj;θ)为在状态sj在执行动作aj时对应的Q值;
其中,第一种取值在sj+1为最终状态下成立,rj为在状态sj执行动作aj后环境反馈给智能体的奖励值,γ为衰变常数,为在输入为sj+1的情况下任意取a′∈A中的最大值,A为S31中所定义的动作集;
S38:每隔若干步,更新网络,将Q网络拷贝至target Q网络,使θ′=θ;
S39:重复步骤S33至S38直至标签增强后的数据集达到期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010165953.9/1.html,转载请声明来源钻瓜专利网。