[发明专利]数据处理方法、设备和可读存储介质在审
申请号: | 201910828500.7 | 申请日: | 2019-09-03 |
公开(公告)号: | CN110717589A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 高源;付英波;蔡子翔;姚聪 | 申请(专利权)人: | 北京旷视科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 莎日娜 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基本单元 网络模型 子网络 神经网络模型 神经网络 数据处理 可读存储介质 数据处理设备 测试流程 处理数据 共享参数 计算资源 接收输入 开发过程 训练过程 输出 共享 | ||
本发明公开了数据处理方法、设备和可读存储介质。该数据处理方法包括:接收输入的数据;经由神经网络模型的至少一个子网络模型,处理数据;输出对数据的处理结果,其中,神经网络模型包括多个基本单元和多个子网络模型,其中每个子网络模型包括多个基本单元中的至少部分基本单元,且多个子网络模型中的至少两个子网络模型共享多个基本单元中的一个或多个基本单元。本发明实施例通过在一个神经网络中设计能够共享参数的多个子网络模型结构,从而在该神经网络的一次训练过程中可以同时训练多个不同的子网络模型,能够满足不同数据处理设备的精度、速度需要,极大简化了实际开发过程中的训练和测试流程,节省了计算资源。
技术领域
本发明涉及数据处理领域,尤其涉及数据处理方法、设备和可读存储介质。
背景技术
在基于深度学习的一系列方法(例如目标检测、图像分类、物体识别等方法)中,神经网络模型的训练是关系到模型输出的精度和性能的关键环节。
目前大部分的模型训练方法随机初始化神经网络的参数进行模型训练,然后再部署到相应的设备上。在部署时,诸如移动设备、台式设备、DSP设备、GPU设备等之类的设备上的计算资源的计算能力不同;并且对神经网络模型的结构有不同的偏好性;另外,神经网络模型的大小、不同的网络结构、甚至同一个网络结构中的不同子模块,在这些设备上的运行速度均有一定的差异。因此,当实际要运行神经网络模型的不同设备之间存在一定的差别时,往往需要为它们中的每一个单独地训练多个神经网络模型,使其分别具有不同的大小、形状,以与实际计算设备的性能相符。
按照现有的方法,对于一个特定任务,一个独立的神经网络模型只有一个输出结果。对于不同的设备,即便是同一个神经网络模型可能也需要调整其网络结构,而一旦网络结构做出了调整,就需要另外地重新进行参数初始化并训练。在模型的原理本身没有改动的情况下,训练多个相似的神经网络模型需要额外的手工操作、计算资源和存储资源。
因此,在现有技术中,为了适应不同硬件设备的不同计算性能,需要初始化训练不同大小的神经网络,所以会占用多倍的计算、存储开销。
发明内容
为了解决以上问题之一,本发明提供了一种数据处理方法、设备和可读存储介质,以大大减少针对不同的设备单独训练神经网络模型造成的资源浪费。
根据本发明的一个实施例,提供一种基于神经网络模型的数据处理方法,其特征在于,所述神经网络模型包括多个基本单元和多个子网络模型,其中每个子网络模型包括所述多个基本单元中的至少部分基本单元,且所述多个子网络模型中的至少两个子网络模型共享所述多个基本单元中的一个或多个基本单元,该数据处理方法包括:接收输入的数据;经由所述神经网络模型的至少一个子网络模型,处理所述数据;输出对所述数据的处理结果。
根据本发明的一个实施例,提供一种数据处理设备,通过使用神经网络模型进行数据处理,其特征在于,所述神经网络模型包括多个基本单元和多个子网络模型,其中每个子网络模型包括所述多个基本单元中的至少部分基本单元,且所述多个子网络模型中的至少两个子网络模型共享所述多个基本单元中的一个或多个基本单元,该数据处理设备包括:接收装置,接收输入的数据;处理装置,用于经由所述神经网络模型的至少一个子网络模型,处理所述数据;输出装置,用于输出对所述数据的处理结果
根据本发明的再一个实施例,提供一种基于神经网络模型的数据处理设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上面描述的方法之一。
根据本发明的又一个实施例,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被处理器执行时,使所述处理器执行上面描述的方法之一。
本发明实施例通过在一个神经网络中设计能够共享参数的多个子网络模型结构,从而在该神经网络的一次训练过程中可以同时训练多个不同的子网络模型,能够满足不同数据处理设备的精度、速度需要,极大简化了实际开发过程中的训练和测试流程,节省了计算资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司,未经北京旷视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910828500.7/2.html,转载请声明来源钻瓜专利网。