[发明专利]一种基于算子拟合的深度神经网络密态转换装置在审
申请号: | 202310095674.3 | 申请日: | 2023-01-18 |
公开(公告)号: | CN116090545A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 李建欣;陈天宇;周号益;高士淇;邰振赢 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N3/082 | 分类号: | G06N3/082;G06F21/60 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算子 拟合 深度 神经网络 转换 装置 | ||
1.一种基于算子拟合的深度神经网络密态转换装置,其特征在于:包括输入单元输入需要加密的人工智能对话数据,将输入对话内容的自然语言文本转换为浮点数类型,然后进行同态加密后,输入拟合的加法注意力机制将传统Transformer模型转化为密态模型,以及输出单元;
所述拟合的加法注意力机制将传统Transformer模型转化为密态模型包括三个实现步骤:
步骤一,基于加法注意力算法拟合原始注意力计算方式,在原有Transformer骨架模型基础上使用拟合的加法注意力机制,将传统Transformer模型转化为密态模型,生成基于加法注意力机制的密态模型;
步骤二,设计新的注意力矩阵,使用逐层蒸馏的方式将原始模型的参数迁移至新的密态神经网络中,在注意力层的蒸馏中,分别衡量注意力分数输出损失、softmax输出损失和注意力层输出损失,得到高性能的密态模型;
步骤三,使用同态加密的请求数据在密态模型中实现高效推断,输出加密后的输出文本。
2.如权利要求1所述的一种基于算子拟合的深度神经网络密态转换装置,其特征在于:所述拟合的加法注意力机制的具体实现方法为:用L1距离衡量相似度,公式如下:
L1(x,y)=|x1-y1|+|x2-y2|+...+|xn-yn|
相似度得分矩阵S满足Si,j=L1(qi,kj);
使用HardTanh函数将输出限定在[-1,1]内,HardTanh函数公式如下:
加法注意力计算方式为:Attentionadd=softmax(HT(S))。
3.如权利要求2所述的一种基于算子拟合的深度神经网络密态转换装置,其特征在于:所述注意力矩阵的构建方式为:通过使用逐层蒸馏的方法,在注意力层的蒸馏中通过让HENet网络学习并拟合原始网络中的注意力矩阵,其中,教师模型为Transformer骨架模型的注意力层,学生模型为加法注意力层,在每层蒸馏过程中,损失可以定义为两部分,分别为Q,V输出损失、softmax输出损失和Att输出损失,其中softmax输出损失与、Att输出损失与传统知识蒸馏损失一致,用于衡量两个模型中键与查询/值矩阵的输出相似程度,softmax输出损失可表示为:
其中,分别代表了教师网络原始注意力机制和学生网络加法注意力机制的softmax输出,
随后,为了衡量矩阵V的输出损失,将注意力计算的最终结果作为损失,表示为:
Latt=MSE(ASi,ATi)
其中AS为学生网络的注意力输出,AT表示教师网络的注意力函数输出;
最后,为注意力分数设置额外的学习损失,引入两个核变换把两个网络的输出分布映射为相同的分布,两个核变换分别为:
分别通过拉普拉斯核与高斯核变换后,QK矩阵计算结果输出被分别为:
由此,注意力得分的蒸馏损失为:
最终,注意力层的蒸馏中,损失为:
Loss=Lsoftmax+Latt+Lscore。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310095674.3/1.html,转载请声明来源钻瓜专利网。