[发明专利]一种基于知识蒸馏的深度序列推荐算法模型压缩方法在审
申请号: | 202111435067.4 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114037065A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李博;王硕苹;金苍宏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N5/00;G06F16/906;G06F16/9537;G06F16/2458;G06F16/9535 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 深度 序列 推荐 算法 模型 压缩 方法 | ||
1.一种基于知识蒸馏的深度序列推荐算法模型压缩方法,其特征在于,包括以下步骤:
S1:获取用户交互行为的源数据,将源数据以用户为维度分类,并按照交互行为发生的时间排序,最终截取固定长度的用户行为序列作为数据集。
S2:用S1得到的数据集训练用于知识蒸馏的老师模型,老师模型的架构为深度序列推荐算法模型。
S3:搭建学生模型,学生模型和老师模型的架构一致,但比老师模型更小;使用“相邻模型块参数共享”来压缩学生模型的中间层,学生模型的中间层中每个模型块重复使用两次,使一个模型块在逻辑上充当两个相邻模型块,两个相邻模型块参数共享;
S4:使用S2训练得到的老师模型对学生模型的参数进行初始化,在初始化过程中,使用“自适应EMD”提高初始化过程中暗知识的传递。具体为:在计算中间层表示的EMD距离时,对于老师模型的中间层,输入输出差距更大的中间层的权重会更高,权重越高的中间层被视为拥有更多的暗知识,更高的权重可以帮助学生模型更加关注这些中间层;对于学生模型的中间层,首先计算出学生模型各中间层表示与老师模型中间层表示的运输成本,运输成本被视为老师模型中间层与学生模型中间层的暗知识流动难度,运输成本越低的元素会被赋予越高的权重;最后,使用老师模型提供的软标签和数据集提供的硬目标完成对学生模型的训练,使用训练完成后的学生模型进行数据推荐。
2.根据权利要求1所述的一种基于知识蒸馏的深度序列推荐算法模型压缩方法,其特征在于,获取初始的用户交互行为的源数据具体为,用户与项目的交互行为记录,其中交互行为包括点击、购买和评分等,行为记录的信息主要包括点击人ID、商品ID、点击行为类别和点击时间等。
3.根据权利要求1所述的基于知识蒸馏的深度序列推荐算法模型压缩方法,其特征在于,步骤S3,在搭建学生模型时,使用了“相邻模型块参数共享”来进一步压缩模型并提高模型的序列建模能力。常见的模型中间层构建方式是将模型块堆积,而“相邻模型块参数共享”构建模型则会将常见构建方式中的每个模型块重复使用两次,使一个模型块在逻辑上充当两个相邻模型块。即在同等参数量的前提下,使用“相邻模型块参数共享“会使得模型深度变为原来的两倍,因此能够提高模型的序列建模能力和推荐能力。
4.根据权利要求1所述的基于知识蒸馏的深度序列推荐算法模型压缩方法,其特征在于,步骤S4中,首先使用老师模型对学生模型的参数进行初始化,在初始化过程中,使用“自适应EMD”来衡量老师模型和学生模型中间层的距离,“自适应EMD”能够提高老师模型和学生模型中间层的暗知识传递效果,不会遗漏老师模型中的任何信息,帮助学生模型关注更重要、更值得学习的暗知识。在计算EMD距离的过程中,需要给序列的每个元素分配一个权重,权重越高的元素对最终的EMD距离影响更大,“自适应EMD”是给更值得关注的元素更高的权重。
5.根据权利要求1所述的基于知识蒸馏的深度序列推荐算法模型压缩方法,其特征在于,该方法应用于电影推荐领域,采集用户与电影的交互行为并预处理作为数据集,然后使用此方法来训练一个模型参数量小,但推荐准确度高的深度序列推荐算法模型,最后将得到的算法模型用于真实的电影推荐系统,可以安装于手机、平板等数据处理能力相对于电脑较低的处理终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111435067.4/1.html,转载请声明来源钻瓜专利网。