[发明专利]一种基于深度Q学习的网络故障检测与诊断方法在审
申请号: | 202110849587.3 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113676371A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 朱洪波;曹家明;朱晓荣;张佩佩 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/24;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 网络故障 检测 诊断 方法 | ||
1.一种基于深度Q学习的网络故障检测与诊断方法,其特征在于,所述方法包括:
采用训练好的故障检测模型进行网络故障检测与诊断,获得网络故障检测与诊断结果;
所述故障检测模型的训练方式,包括:
从异构无线网络环境中采集带有标签的网络状态数据集,所述网络状态数据集中包括网络状态类别、干扰类型和故障类型;
利用深度强化学习将网络故障识别问题建模为马尔科夫决策过程;
根据所述网络状态数据集和所述马尔科夫决策过程,不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息,进行多次迭代,获得具有正确检测与诊断网络故障的故障检测模型。
2.根据权利要求1所述的方法,其特征在于,所述马尔科夫决策过程用一个元组(S,A,P,R,γ)来表示,其中,S为决策过程中的状态集,A为决策过程中的动作集,P为状态之间的转移概率,R为采取某一动作到达下一状态后的回报值,γ为一个折扣因子,γ∈[0,1)为过去奖励与现在奖励之间的比例关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网络状态数据集和所述马尔科夫决策过程,不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息的步骤,包括:
根据所述网络状态数据集和所述马尔科夫决策过程,定义(x,y)是网络状态数据集里的一个样本,x是网络状态数据集k∈K的值,y∈Y是目标标签,c为代价函数,当采用一个新的网络状态特征ki时,代价为c(ki),获得的环境反馈信息为
4.根据权利要求3所述的方法,其特征在于,所述故障检测模型的奖励函数为:
式中,a为采取的动作,y是目标标签,为奖励函数,-μc(ki)为代价,影响所选特征的数量,AK为采用一个之前未选择的新特征,AC为使用一个分类动作来预测样本所属的类别。
5.根据权利要求4所述的方法,其特征在于,所述故障检测模型的环境变换函数为:
式中,t(x,y,k)为环境变换函数,T为终止状态,(x′,y,k′)为当前选择新特征的下一状态。
6.根据权利要求5所述的方法,其特征在于,所述故障检测模型的价值函数为:
式中,Rt为Reward反馈,γ是折扣因子,是一个小于1的值,t′为实时状态,t为初始状态,T为最终终止状态,rt′为实时的奖赏;
在策略π(a|s)下的状态值函数为:
vπ(s)=Eπ[Rt|St=s]
式中,Eπ为策略π(a|s)下的概率分布,vπ(s)为状态值函数,St为t时刻的状态。
7.根据权利要求6所述的方法,其特征在于,所述故障检测模型的状态-动作值函数为:
Qπ(s,a)=Eπ[Rt|St=s,At=a]
式中,Qπ(s,a)为状态-动作值函数,At为t时刻采取的动作;
最优的状态-动作值函数服从贝尔曼方程,对于所有动作a′,s′的下一时间步的最优价值是已知的,则最优策略为选择动作a′最大化期望值,表示为:
式中,t(s,a)为环境转换函数,s′为,Q*(s′,a′)为,r为当前的状态采取某动作时的奖赏值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述网络状态数据集和所述马尔科夫决策过程,不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息,进行多次迭代,获得具有正确检测与诊断网络故障的故障检测模型的步骤,包括:
利用深度强化学习把Q表的更新问题转变为函数拟合问题,更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q*(s,a)
Q(s,a;θ)表示当智能体在状态s时遵循策略π(a|s)采取行动a的状态-动作值函数,策略π(a|s)定义了智能体在特定的时间特定的环境下的行为方式,策略π(a|s)决定了在当前状态下故障识别任务识别正确的故障类别或选择合适的特征子集,Q*(s,a)为最优的状态-动作值函数,服从贝尔曼方程,最优策略就是选择动作a′最大化期望值:
深度强化学习的逼近器选择权重为θ的神经网络函数,通过最小化决策序列的损失函数进行迭代训练:
Loss(θ)=E[(Qtarget-Q(s,a;θ))2]
式中,θ′为固定目标网络的选择权重,Loss(θ)为损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110849587.3/1.html,转载请声明来源钻瓜专利网。