[发明专利]基于人工智能的控制决策模块的训练方法、设备及可读介质有效

申请号：	201811132192.6	申请日：	2018-09-27
公开（公告）号：	CN109255442B	公开（公告）日：	2022-08-23
发明（设计）人：	王凡;周波;陈科;来杰;周古月	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06N5/02	分类号：	G06N5/02;G06N20/00
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	袁媛
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能控制决策模块训练方法设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于人工智能的控制决策模块的训练方法、设备及可读介质。其方法包括：在实地测试场景中，采集智能设备的干预数据；根据智能设备的干预数据，训练智能设备中的控制决策模块。本发明中的训练方法为一种干预学习的过程，通过发明的干预学习，能够对控制决策模块进行更加有效地训练，以提高智能设备中的控制决策模块的控制和决策能力，增强控制决策模块的智能性。

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于人工智能的控制决策模块的训练方法、设备及可读介质。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着人工智能的发展，很多智能设备中都需要使用控制决策模块，并通过对控制决策模块进行训练，使得控制决策模块学习对智能设备进行硬件控制和决策。例如，在无人机、无人车、机器人等智能设备中，都设置有通过决策控制学习的控制决策模块。另外，现有技术的控制决策模块实现硬件控制和决策存在两大类方案：一种为经典控制，通过物理建模和精密计算，或者数学模型，来获得控制信号；另一种为智能控制，通过学习人的操作，或者直接从反馈信号中得到强化。其中，前者对应的学习方法通常为监督学习(SupervisedLearning)，而后者对应的学习方法通常为强化半监督学习(Reinforcement Learning)。前者在应用中存在很大缺陷是依赖成本很高的专家数据，这类数据除了获取成本高，还存在一个问题是专家数据通常无法覆盖所有需要的状态空间，一旦出现不在训练数据中的状态，控制就可能失效并且非常不稳定。而强化学习在实际应用更为有效，因其可以自主学习，并且更加稳定。然而在一些硬件中如无人车，无人机的控制时存在一个很大障碍，就是训练成本的问题。通常，强化学习需要通过不断失败，并且从这些经验中进行学习。以无人机学习躲避障碍物为例子，在训练过程中，无人机需要通过碰撞来学习失败经验，而这种成本通常是无法接受的。

基于以上所述，可以知道现有技术的强化学习方式训练控制决策模块无法在实际应用中来实现；而监督学习的训练方式，泛化能力较弱，使得训练的智能设备中的控制决策模块，在碰到训练之外的状态时，无法应对而出现控制失效，导致智能设备的控制决策模块的智能性较差。

【发明内容】

本发明提供了一种基于人工智能的控制决策模块的训练方法、设备及可读介质，用于提高智能设备的控制决策模块的智能性。

本发明提供一种基于人工智能的控制决策模块的训练方法，所述控制决策模块设置在智能设备中，所述方法包括：

在实地测试场景中，采集所述智能设备的干预数据；

根据所述智能设备的干预数据，训练所述智能设备中的所述控制决策模块。

进一步可选地，如上所述的方法中，在实地测试场景中，采集智能设备的干预数据，具体包括：

在所述实地测试场景中，采集操作人员对所述智能设备进行干预操作时对应的所述智能设备的所述干预数据。

进一步可选地，如上所述的方法中，所述干预数据包括干预所述智能设备时的状态数据、以及所述智能设备响应所述干预操作的输出信号和/或状态数据。

进一步可选地，如上所述的方法中，在实地测试场景中，采集智能设备的干预数据，具体包括：

在实地测试场景中，采集所述智能设备根据预设的保障规则所产生的干预数据。

进一步可选地，如上所述的方法中，所述干预数据包括所述保障规则中的干预条件、以及所述智能设备响应所述干预条件的输出信号和/或状态数据。