[发明专利]序列挖掘模型的训练方法、序列数据的处理方法及设备有效
申请号: | 202010099547.7 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111352965B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 陶冶;金欢;金洪波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q40/03 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 挖掘 模型 训练 方法 数据 处理 设备 | ||
1.一种序列挖掘模型的训练方法,其特征在于,所述方法包括:
获取信用卡管理系统下的第一序列样本,所述第一序列样本包括所述信用卡管理系统下的历史序列数据,所述历史序列数据包括信用卡用户历史的交易金额序列和历史交易时间间隔序列中的至少之一;
确定所述第一序列样本的标签状态,所述第一序列样本的标签状态用于指示所述第一序列样本具备标签信息的情况;
根据所述标签状态,从序列挖掘框架中选取子模型构建序列挖掘模型,所述序列挖掘模型用于确定所述信用卡管理系统下序列数据的标签信息,所述标签信息用于指示正常使用信用卡或异常使用信用卡;
采用所述第一序列样本对所述序列挖掘模型进行训练;
其中,所述序列挖掘框架包括第一子模型、第二子模型和第三子模型;所述第一子模型用于获取所述序列数据的隐向量表示;所述第二子模型用于在所述标签状态满足第一条件的情况下,根据所述序列数据的隐向量表示确定所述序列数据的标签信息,所述第一条件包括所述标签状态为所述第一序列样本不存在标签信息;所述第三子模型用于在所述标签状态满足第二条件的情况下,根据所述序列数据的隐向量表示确定所述序列数据的标签信息,所述第二条件包括所述标签状态为所述第一序列样本至少部分存在标签信息;
在所述标签状态为所述第一序列样本不存在标签信息的情况下,所述序列挖掘模型包括所述第一子模型和所述第二子模型;
所述采用所述第一序列样本对所述序列挖掘模型进行训练,包括:
采用所述第一序列样本对所述第一子模型进行预训练,得到预训练的第一子模型;
通过所述预训练的第一子模型对所述第一序列样本进行处理,得到所述第一序列样本的隐向量表示;
对所述第一序列样本的静态特征进行正则化处理,以减小所述第一序列样本的静态特征的数量级,得到正则化处理后的静态特征;其中,所述静态特征是基于以下静态数据中的至少之一确定的:所述信用卡用户的注册电话号码数量、所在国家、所属国籍;
对所述第一序列样本的隐向量表示进行泛化处理,以调整所述第一序列样本的隐向量表示的数量级,得到泛化处理后的隐向量表示;
结合所述正则化处理后的静态特征和所述泛化处理后的隐向量表示,得到所述第一序列样本的优化向量表示;其中,所述正则化处理后的静态特征的数值大小和所述泛化处理后的隐向量表示的数值大小位于相同的数量级上;
采用所述第一序列样本和所述第一序列样本的优化向量表示,对所述预训练的第一子模型和所述第二子模型进行联合训练,得到所述序列挖掘模型。
2.根据权利要求1所述的方法,其特征在于,在所述标签状态为所述第一序列样本至少部分存在标签信息,且第二序列样本的数量大于第三序列样本的数量的情况下,所述序列挖掘模型包括所述第一子模型和所述第三子模型;其中,所述第二序列样本是指所述第一序列样本中存在标签信息的序列样本;所述第三序列样本是指所述第一序列样本中不存在标签信息的序列样本;
所述采用所述第一序列样本对所述序列挖掘模型进行训练,包括:
采用所述第一序列样本对所述第一子模型进行预训练,得到预训练的第一子模型;
通过所述预训练的第一子模型对所述第二序列样本进行处理,得到所述第二序列样本的隐向量表示;
采用所述第二序列样本和所述第二序列样本的隐向量表示,对所述预训练的第一子模型和所述第三子模型进行联合训练,得到所述序列挖掘模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099547.7/1.html,转载请声明来源钻瓜专利网。