首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于强化学习的弱监督自学习方法在审

申请号：	202010165953.9	申请日：	2020-03-11
公开（公告）号：	CN111401551A	公开（公告）日：	2020-07-10
发明（设计）人：	王成;柴松耀	申请（专利权）人：	同济大学
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	上海伯瑞杰知识产权代理有限公司 31227	代理人：	李庆;王一琦
地址：	200000 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习监督自学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的弱监督自学习方法，包括步骤：

S1：收集获取并预处理弱监督数据，获得弱监督数据特征集合；

S2：基于所述弱监督数据特征集合及业务场景，对弱监督场景进行信息量化；

S3：基于深度强化学习算法训练强化学习模型，确定弱监督算法调度策略。

2.根据权利要求1所述的基于强化学习的弱监督自学习方法，其特征在于，所述S1步骤进一步包括步骤：

S11：数据清理，通过对原始所述弱监督数据进行填写缺失值、光滑噪声和识别解决数据不一致来实现数据的格式化、异常数据的清除错误纠正以及重复数据的清除；

S12：数据变换，通过平滑聚集，数据概化或规范化的方式将数据转换成学习模型需要的形式；

S13：数据表征，通过对业务属性进行邻接性，聚集性和结构性分析，对数据变换后的原始所述弱监督数据进行重新表征，获得弱监督数据特征集合。

3.根据权利要求2所述的基于强化学习的弱监督自学习方法，其特征在于，所述S2步骤进一步包括步骤：

S21：量化所述弱监督数据特征集合的内部信息，所述内部信息包括标签比率、标签的均衡度比率和数据的分布与标签的互信息量；

S22：量化弱监督业务场景的外部辅助量。

4.根据权利要求3所述的基于强化学习的弱监督自学习方法，其特征在于，所述S3进一步包括步骤：

S31：建立强化学习模型；所述强化学习模型包括一强化学习的状态集和一动作集，所述强化学习的状态集包括内部信息和外部辅助量，所述动作集包括若干弱监督算法；

S32：初始化重播缓冲区D，初始化一Q网络，记作Q，所述Q网络随机生成权重θ；初始化一target Q网络，记作所述target Q网络结构与所述Q网络完全相同，所述target Q网络随机生成权重θ′；θ′＝θ；

初始化状态s＝{x₁,x₂,…,x_n}。其中，x₁,x₂,…,x_n为所述内部信息和所述外部辅助量；

S33：将当前所述状态s输入Q，输出所有动作对应的Q值Q(s,a；θ)，a表示动作；基于ε-greedy策略选择一个所述动作a，有概率ε根据Q(s,a；θ)中最大值选择对应的所述动作，此时a＝argmax_aQ(s,a；θ)，而有概率(1-ε)随机选择一个所述动作；

S34：根据当前选择的动作a，使用对应的所述弱监督算法对当前所述弱监督数据特征集合进行标签增强，获得标签增强后的新数据集；

S35：评估所述新数据集的标签效用并反馈给智能体奖赏值，分别使用本次标签增强前的有标签数据和所述新数据集训练一个预测模型，并在一测试集结果进行预测，通过计算准确率、召回率和打扰率对两个模型的预测结果进行评估，并根据评估结果反馈给智能体一个奖励值；

准确率precision表达为公式(1)：

召回率recall表达为公式(2)：

打扰率disturb表达为公式(3)：

其中，TP为模型将正类判定为正类的数量，FP为模型将负类判定为正类的数量，FN为模型将正类判定为负类的数量，TN为模型将负类判定为负类的数量；

S36：将本次转换存储在所述重播缓冲区D中，记作(s_t,a_t,r_t,s_t+1)，其中s_t为本次动作之前的环境，a_t为本次执行的动作，r_t为奖励值，s_t+1为执行本次动作后的环境状态；

S37：从所述重播缓冲区D中随机抽取一个minibatch的样本，并使用梯度下降法对Q进行更新，损失函数Loss表达为公式(4)：

Loss＝(y_j-Q(s_j,a_j；θ))² (4)；

其中，Q(s_j,a_j；θ)为在状态s_j在执行动作a_j时对应的Q值；

其中，第一种取值在s_j+1为最终状态下成立，r_j为在状态s_j执行动作a_j后环境反馈给智能体的奖励值，γ为衰变常数，为在输入为s_j+1的情况下任意取a′∈A中的最大值，A为S31中所定义的动作集；

S38：每隔若干步，更新网络，将Q网络拷贝至target Q网络，使θ′＝θ；

S39：重复步骤S33至S38直至标签增强后的数据集达到期望。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010165953.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种机器翻译的方法、设备以及计算机可读存储介质
下一篇：一种复杂山地环境下的雷达探测能力分析方法

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top