[发明专利]一种数据处理、模型训练方法、装置、设备以及存储介质在审
申请号: | 202210043115.3 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114511706A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 尉德利 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/82;G06V10/74;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;马敬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 模型 训练 方法 装置 设备 以及 存储 介质 | ||
1.一种数据处理方法,包括:
获得待处理数据的特征序列;
计算所述特征序列中各特征值对应的注意力Attention系数,其中,每一特征值对应的Attention系数表征该特征值依赖所述特征序列中各特征值的程度;
采用预设的正则项,对所述Attention系数进行稀疏化处理;
基于稀疏化处理后的Attention系数对所述特征序列中的特征值进行调整;
根据调整后的特征值,对所述待处理数据进行数据处理。
2.根据权利要求1所述的方法,其中,所述计算所述特征序列中各特征值对应的注意力Attention系数,包括:
获得所述特征序列中各特征值对应的相似度系数,其中,每一特征值对应的相似度系数包括:该特征值分别与所述特征序列中各特征值间的相似度系数;
对各特征值对应的相似度系数分别进行归一化处理,得到各特征值对应的Attention系数。
3.根据权利要求2所述的方法,其中,所述对各特征值对应的相似度系数分别进行归一化处理,得到各特征值对应的Attention系数,包括:
按照以下方式对每一特征值对应的相似度系数进行归一化处理:
计算特征值对应的各相似度系数的指数表示值;
获得计算所得指数表示值的表示值总和;
根据计算得到的各指数表示值与所述表示值总和,获得特征值对应的Attention系数。
4.根据权利要求1-3中任一项所述的方法,其中,
所述正则项为Hoyer正则项。
5.一种模型训练方法,包括:
将样本数据输入预设的网络模型;
获得所述网络模型输出的所述样本数据的样本特征序列中各特征值对应的经稀疏化处理的样本Attention系数、以及基于各特征调整值对所述样本数据进行数据处理的处理结果,其中,所述稀疏化处理基于预设的正则项实现,各特征调整值为:基于所述样本Attention系数对各特征值进行调整得到的值;
根据所述样本Attention系数,获得对所述样本数据进行数据处理的第一损失,并根据所述处理结果和所述样本数据的处理标注信息,获得对所述样本数据进行数据处理的第二损失;
基于所述第一损失和第二损失,对所述网络模型进行训练。
6.根据权利要求5所述的方法,其中,所述根据所述样本Attention系数,获得对所述样本数据进行数据处理的第一损失,包括:
计算所述样本Attention系数的L1范数和L2范数;
根据所述L1范数和L2范数,获得对所述样本数据进行数据处理的第一损失。
7.根据权利要求5所述的方法,其中,所述基于所述第一损失和第二损失,对所述网络模型进行训练,包括:
基于所述第一损失和第二损失,计算总损失;
以最小化所述总损失的方式,调整所述网络模型的模型参数,实现对所述网络模型的训练。
8.根据权利要求5所述的方法,其中,所述网络模型按照以下方式,生成样本特征序列中各特征值对应的经稀疏化处理的样本Attention系数:
获得所述样本特征序列中各特征值对应的样本相似度系数,其中,每一特征值对应的样本相似度系数包括:该特征值分别与所述样本特征序列中各特征值间的样本相似度系数;
对各特征值对应的样本相似度系数进行归一化处理,得到各特征特征值对应的样本Attention系数;
采用所述预设的正则项,对所述样本Attention系数进行稀疏化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210043115.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全断面硬岩隧道掘进机
- 下一篇:一种新型大电流线对板的电源连接器