[发明专利]一种基于KL散度的神经网络模型性能评估方法在审
申请号: | 202210281756.2 | 申请日: | 2022-03-22 |
公开(公告)号: | CN114861866A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 韩振华;李艳鹏;欧阳鹏 | 申请(专利权)人: | 北京清微智能信息技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 朱玲 |
地址: | 102600 北京市大兴区北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 kl 神经网络 模型 性能 评估 方法 | ||
本发明涉及神经架构搜索领域,公开了一种基于KL散度的神经网络模型性能评估方法,首先由需要评估的神经网络模型加载测试样本,然后提取出神经网络的特征,并用t‑SNE的方法对提取出的特征进行降维,最后,根据降维后的真实数据概率分布和噪声数据概率分布计算出KL散度,并基于KL散度对模型进行评估。本发明公开的方法流程完善,实用性强,很好解决了传统神经网络模型评估计算资源占用高、评估时间长的问题,为神经网络的设计和优化提供了很好的参考和依据。
技术领域
本发明涉及神经架构搜索领域,具体涉及一种基于KL散度的神经网络模型性能评估方法。
背景技术
神经网络可以自动从数据集中学习出有用的特征,脱离了对特征工程的依赖,在处理计算机视觉任务和自然语言处理任务上都取得了显著的成就,但手工设计出高性能的神经网络需要专业的知识与反复的试验,所花费的时间和精力成本极高,这些弊端限制了神经网络在很多问题上的应用。
神经架构搜索技术是一种神经网络自动化设计的技术,其目标是在一个搜索空间中寻找到适合指定任务的高性能神经网络结构,在某些任务上甚至能搜索出目前还未提出的高性能神经网络模型。
目前用于神经架构搜索的方法,都需要对候选网络进行训练,然后获取模型的精度、处理速度等性能信息,但由于神经架构的搜索空间巨大,导致验证一个神经架构搜索算法的有效性需要大量的计算资源和时间。
发明内容
为了解决上述背景技术中提到的至少一个问题,本发明提出了一种基于KL散度的神经网络模型性能评估方法。
一种基于KL散度的神经网络模型性能评估方法,包括步骤:
步骤S1,建立数据集,并从所述数据集中抽取样本建立测试样本集,抽取样本的方法为随机抽取,抽取的样本量为128;具体地,测试样本集是由真实数据和噪声数据,按照1:1的比例混合而成,所述噪声数据是对真实数据添加随机噪声而生成的数据,具体计算公式为:
其中,
步骤S2,加载神经网络模型,在所述神经模型的前向推理过程,对所述测试样本集进行循环遍历,依次读取所述测试样本集中的样本;
步骤S3,对所述神经网络的卷积层进行特征提取,将提取出来的高维特征进行t-SNE降维,并计算出降维特征的概率,具体包括步骤:
步骤S301,对所述神经网络的卷积层进行特征提取,包括提取神经网络最后一层卷积层的特征和提取神经网络多层卷积的融合特征;
步骤S302,将提取出来的高维特征进行降维,具体计算公式为:
其中,,表示降维后的结果,t表示迭代次数,表示学习率,表示动量,F表示损失函数;
步骤S302,计算出降维特征的概率,具体计算公式为:
其中,为低维空间中特征点之间的概率,,表示初始化高维数据的结果。
步骤S4,根据所述概率密度计算出真实数据和噪声数据特征之间的KL散度,并评估模型,具体包括步骤:
步骤S401,根据低维空间中特征点之间的概率,计算出真实数据特征与噪声数据特征之间的KL散度,计算公式为:
其中,表示KL散度,表示真实数据特征点之间的概率,表示噪声数据特征点之间的概率;
步骤S402,计算测试样本集中真实数据和噪声数据特征之间KL散度矩阵:
其中,表示KL散度,表示样本量大小;
步骤S403,根据KL散度矩阵计算其行列式的值,具体公式如下:
步骤S404,根据行列式的值value评估模型的性能,具体计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能信息技术有限公司,未经北京清微智能信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210281756.2/2.html,转载请声明来源钻瓜专利网。