[发明专利]一种基于算子拟合的深度神经网络密态转换装置在审

专利信息
申请号: 202310095674.3 申请日: 2023-01-18
公开(公告)号: CN116090545A 公开(公告)日: 2023-05-09
发明(设计)人: 李建欣;陈天宇;周号益;高士淇;邰振赢 申请(专利权)人: 北京航空航天大学
主分类号: G06N3/082 分类号: G06N3/082;G06F21/60
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 算子 拟合 深度 神经网络 转换 装置
【权利要求书】:

1.一种基于算子拟合的深度神经网络密态转换装置,其特征在于:包括输入单元输入需要加密的人工智能对话数据,将输入对话内容的自然语言文本转换为浮点数类型,然后进行同态加密后,输入拟合的加法注意力机制将传统Transformer模型转化为密态模型,以及输出单元;

所述拟合的加法注意力机制将传统Transformer模型转化为密态模型包括三个实现步骤:

步骤一,基于加法注意力算法拟合原始注意力计算方式,在原有Transformer骨架模型基础上使用拟合的加法注意力机制,将传统Transformer模型转化为密态模型,生成基于加法注意力机制的密态模型;

步骤二,设计新的注意力矩阵,使用逐层蒸馏的方式将原始模型的参数迁移至新的密态神经网络中,在注意力层的蒸馏中,分别衡量注意力分数输出损失、softmax输出损失和注意力层输出损失,得到高性能的密态模型;

步骤三,使用同态加密的请求数据在密态模型中实现高效推断,输出加密后的输出文本。

2.如权利要求1所述的一种基于算子拟合的深度神经网络密态转换装置,其特征在于:所述拟合的加法注意力机制的具体实现方法为:用L1距离衡量相似度,公式如下:

L1(x,y)=|x1-y1|+|x2-y2|+...+|xn-yn|

相似度得分矩阵S满足Si,j=L1(qi,kj);

使用HardTanh函数将输出限定在[-1,1]内,HardTanh函数公式如下:

加法注意力计算方式为:Attentionadd=softmax(HT(S))。

3.如权利要求2所述的一种基于算子拟合的深度神经网络密态转换装置,其特征在于:所述注意力矩阵的构建方式为:通过使用逐层蒸馏的方法,在注意力层的蒸馏中通过让HENet网络学习并拟合原始网络中的注意力矩阵,其中,教师模型为Transformer骨架模型的注意力层,学生模型为加法注意力层,在每层蒸馏过程中,损失可以定义为两部分,分别为Q,V输出损失、softmax输出损失和Att输出损失,其中softmax输出损失与、Att输出损失与传统知识蒸馏损失一致,用于衡量两个模型中键与查询/值矩阵的输出相似程度,softmax输出损失可表示为:

其中,分别代表了教师网络原始注意力机制和学生网络加法注意力机制的softmax输出,

随后,为了衡量矩阵V的输出损失,将注意力计算的最终结果作为损失,表示为:

Latt=MSE(ASi,ATi)

其中AS为学生网络的注意力输出,AT表示教师网络的注意力函数输出;

最后,为注意力分数设置额外的学习损失,引入两个核变换把两个网络的输出分布映射为相同的分布,两个核变换分别为:

分别通过拉普拉斯核与高斯核变换后,QK矩阵计算结果输出被分别为:

由此,注意力得分的蒸馏损失为:

最终,注意力层的蒸馏中,损失为:

Loss=Lsoftmax+Latt+Lscore

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310095674.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top