[发明专利]一种基于增强学习算法的双层贝叶斯网络推理算法有效
申请号: | 201310307121.6 | 申请日: | 2013-07-19 |
公开(公告)号: | CN104299036B | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 李捷;褚灵伟;董晨;陆肖元 | 申请(专利权)人: | 上海宽带技术及应用工程研究中心 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 上海光华专利事务所(普通合伙)31219 | 代理人: | 余明伟 |
地址: | 201201 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增强 学习 算法 双层 贝叶斯 网络 推理 | ||
1.一种基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于,所述双层贝叶斯网络包括顶层贝叶斯网络、底层贝叶斯网络集合以及顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系;使用贝叶斯网络来描述网络节点之间的对应关系;
所述基于增强学习算法的双层贝叶斯网络的网络认知方法至少包括以下步骤:
步骤S1、通过双层贝叶斯网络中的贝叶斯网络节点的替换,得到相关节点的条件依赖表,进而在横轴和纵轴两个方向建立相关节点的增强学习概率表,初始化的增强学习概率表即为所述条件依赖表,其中,所述横轴表示某个节点所依赖的网络节点的所有取值组合以及各个取值组合所对应的条件选择概率,纵轴表示某个节点所依赖的网络节点集合中的各个特定的节点以及各个特定的节点对所述节点的选择影响程度,所述选择影响程度也用一个条件选择概率表示;
步骤S2、在横轴方向,对所述节点所依赖的网络节点的所有取值组合进行环境的评估,利用环境的反馈信息和取值组合本身的知识,进行条件选择概率的更新;在纵轴方向,对所述节点所依赖的网络节点集合中的各个特定的节点进行环境的评估,利用环境的反馈信息和节点本身的知识,进行条件选择概率的更新;
步骤S3、在横轴方向,通过相关的学习过程之后,最后得到所述节点所依赖的网络节点的各个取值组合的条件选择概率;如果某些取值组合的条件选择概率小于第一阈值,那么认为所述取值组合的信息就是冗余的,将其从所述增强学习概率表中删除;在纵轴方向,通过相关的学习过程之后,最后得到所述节点所依赖的网络节点集合中的各个特定的节点的条件选择概率;如果某些节点的条件选择概率低于第二阈值,那么认为所述节点的信息是冗余的,将其从所述增强学习概率表中删除。
2.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于:步骤S2中,在横轴方向,环境会根据取值组合的表现,给出奖励或惩罚的信息;如果某个取值组合的环境反馈为奖励,则将增加这个取值组合的概率,反之,如果某个取值组合的环境反馈为惩罚,则将减少这个取值组合的概率。
3.根据权利要求2所述的基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于:如果当前的推理取值组合的评估值优于当前的最优推理取值组合的评估值,则环境反馈为奖励;反之,环境反馈为惩罚。
4.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于:步骤S2中,在纵轴方向,环境根据节点的表现,给出奖励或惩罚的信息;如果某个节点的环境反馈为奖励,则将增加这个节点的概率,反之,如果某个节点的环境反馈为惩罚,则将减少这个节点的概率。
5.根据权利要求4所述的基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于:如果当前的推理节点的评估值优于当前的最优推理节点的评估值,则环境反馈为奖励;反之,环境反馈为惩罚。
6.根据权利要求1所述的基于增强学习算法的双层贝叶斯网络的网络认知方法,其特征在于:在双层贝叶斯网络中,假定R为顶层贝叶斯网络节点与底层贝叶斯网络集合间的对应关系,其中,Rij代表顶层贝叶斯网络中第i个节点和底层贝叶斯网络集合中第j个元素之间的对应关系,则i节点的状态值必须与第j个贝叶斯网络根节点的状态值相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宽带技术及应用工程研究中心,未经上海宽带技术及应用工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310307121.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电网故障恢复及其人员培训系统
- 下一篇:一种实现多卡槽吞退卡循环的装置及方法