[发明专利]向人工智能模型植入水印信息的方法有效
申请号: | 202010679155.8 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111861849B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 易平;谢宸琪;江浩宇 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06T1/00 | 分类号: | G06T1/00;G06F21/16;G06Q50/18 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 模型 植入 水印 信息 方法 | ||
一种向人工智能模型植入水印信息的方法,通过对数据集进行相应的预处理得到扩充数据集后,对预定义模型结构的参数随机初始化后在训练集上训练,然后对训练后的模型参数的副本进行重要性剪枝操作,剪去模型参数中的冗余部分;再对剪枝后的模型进行微调操作,对模型参数中的冗余部分进行再筛选;最后根据身份信息以及位置信息生成相应的水印模板,并基于水印模板对训练后的模型参数进行梯度剪枝操作,实现对模型的水印信息植入。
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种向人工智能模型植入水印信息的方法。
背景技术
人工智能在近年来越来越广泛地被应用在各个领域,而随着这一技术的应用场景的不断扩大和发展,其中的安全隐患也越来越引发人们的关注。模型在使用时常常涉及到分配给其他用户,而非法的复制、传播和衍生特定的深度学习模型,将很有可能造成版权侵权和对模型构建者的侵害。因而近年来人们在寻求找到合适的方法,将版权相关信息植入到模型当中,以实现保护知识产权的目的。
发明内容
本发明针对上述现有技术的问题,提出一种向人工智能模型植入水印信息的方法,在保证模型准确率的情况下将持有者的版权信息植入,并且水印信息可以进行读取。具有极高的可验证度。
本发明是通过以下技术方案实现的:
本发明涉及一种向人工智能模型植入水印信息的方法,通过对数据集进行相应的预处理得到扩充数据集后,对预定义模型结构的参数随机初始化后在训练集上训练,然后对训练后的模型参数的副本进行重要性剪枝操作,剪去模型参数中的冗余部分;再对剪枝后的模型进行微调操作,对模型参数中的冗余部分进行再筛选;最后根据身份信息以及位置信息生成相应的水印模板,并基于水印模板对训练后的模型参数进行冗余剪枝操作,实现对模型的水印信息植入。
所述的重要性剪枝,具体包括:
步骤1、定义与权重矩阵尺寸相同的连接模板,连接模板数值为全1;
步骤2、将连接模板与权重矩阵的基本积代替原有的权重矩阵,将梯度传递公式中的权重矩阵替换为连接模板与权重矩阵的基本积;
步骤3、在训练集上训练的过程中,对损失函数求关于连接模板的梯度,将其降序排列,将该梯度作为剪枝的参照依据;
步骤4、找到合适的阈值,使得连接模板的梯度中在阈值之下的部分占比满足所要求剪枝的比例,具体为:由于连接模板的梯度为一组数据,故经步骤3降序排列过后当要求剪枝比例是50%,则对应使得梯度在阈值之下的占比为50%即可,即该阈值为连接模板梯度里按大小排列的50%位置的数据;
步骤5、定义与权重矩阵尺寸相同的剪枝模板,剪枝模板中,相应连接模板梯度在阈值之下的位置数值为0,其他位置数值为1;
步骤6、将剪枝模板与权重矩阵的基本积代替原有的权重矩阵,实现剪枝目的。
所述的微调操作是指:经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练。
所述的再训练采用的数据集是训原始模型时使用的数据集。
所述的再筛选是指:对微调处理后的模型参数中为0的部分记录作为位置信息,而该部分,即微调处理后,模型参数里仍然保持为0的参数总量记为冗余参数量。
所述的身份信息是指:能够证明版权所有者身份的信息,其包括但不限于:公司编码,单位名称等。
所述的水印模板,具体通过以下方式生成:
步骤1、将身份信息进行哈希计算得到散列值序列;
步骤2、将散列值序列的十进制形式与冗余参数量进行模运算,计算得到初始植入位置FirstPos=DecHash mod ParaNum;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010679155.8/2.html,转载请声明来源钻瓜专利网。