[发明专利]序列挖掘模型的训练方法、序列数据的处理方法及设备有效
申请号: | 202010099547.7 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111352965B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 陶冶;金欢;金洪波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q40/03 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 挖掘 模型 训练 方法 数据 处理 设备 | ||
本申请公开了一种序列挖掘模型的训练方法、序列数据的处理方法及设备,属于人工智能和机器学习技术领域,所述方法包括:获取目标业务场景下的第一序列样本;确定第一序列样本的标签状态;根据标签状态,从序列挖掘框架中选取子模型构建序列挖掘模型;采用第一序列样本对序列挖掘模型进行训练。本申请实施例提供的技术方案提出了一种序列挖掘框架,针对不同的业务场景下历史序列数据不同的标签状态,可以从序列挖掘框架中选取对应的子模型构建序列挖掘模型。相比于相关技术中只能采用结构固定的单一模型进行训练,本申请实施例提供的技术方案,充分利用了业务场景中的所有历史序列数据,提升了资源利用率。
技术领域
本申请实施例涉及人工智能和机器学习技术领域,特别涉及一种序列挖掘模型的训练方法、序列数据的处理方法及设备。
背景技术
诸如信用卡反欺诈、反小号作弊、反薅羊毛党等风控业务场景中,通常会面临海量的序列数据,对海量的序列数据进行处理,以挖掘和区分“好”与“坏”的长期行为模式,在风控业务场景中尤为重要。
相关技术针对风控业务场景中序列数据的挖掘,提供了一种有监督学习方案。首先,利用DTW(Dynamic Time Warping,动态时间归整)算法对所有序列样本进行规整对齐,再计算两两序列样本间的相似度,根据序列间相似度,利用KNN(K-NearestNeighbor,K最邻近)模型对所有的序列样本进行分类,从而可以将“好”的序列样本与“坏”的序列样本进行区分。
然而,由于不同的风控业务场景中,序列样本并非都是具备标签的,相关技术提供的技术方案仅适用于某一能够提供具备标签的序列样本的风控业务场景,不具备通用性。
发明内容
本申请实施例提供了一种序列挖掘模型的训练方法、序列数据的处理方法及设备,可以充分利用业务场景中的历史序列数据,提升资源利用率,并且提升通过序列挖掘模型确定序列数据的标签信息的准确性。所述技术方案如下:
一方面,本申请实施例提供了一种序列挖掘模型的训练方法,所述方法包括:
获取目标业务场景下的第一序列样本,所述第一序列样本包括所述目标业务场景下的历史序列数据;
确定所述第一序列样本的标签状态,所述第一序列样本的标签状态用于指示所述第一序列样本具备标签信息的情况;
根据所述标签状态,从序列挖掘框架中选取子模型构建序列挖掘模型,所述序列挖掘模型用于确定所述目标业务场景下序列数据的标签信息;
采用所述第一序列样本对所述序列挖掘模型进行训练;
其中,所述序列挖掘框架包括第一子模型、第二子模型和第三子模型;所述第一子模型用于获取所述序列数据的隐向量表示;所述第二子模型用于在所述标签状态满足第一条件的情况下,根据所述序列数据的隐向量表示确定所述序列数据的标签信息,所述第一条件包括所述标签状态为所述第一序列样本不存在标签信息;所述第三子模型用于在所述标签状态满足第二条件的情况下,根据所述序列数据的隐向量表示确定所述序列数据的标签信息,所述第二条件包括所述标签状态为所述第一序列样本至少部分存在标签信息。
另一方面,本申请实施例提供了一种序列数据的处理方法,所述方法包括:
获取目标业务场景的序列数据;
调用所述目标业务场景对应的序列挖掘模型,所述序列挖掘模型是根据所述目标业务场景下的历史序列数据的标签状态,从序列挖掘框架中选取子模型构建并采用所述历史序列数据进行训练得到的模型;
通过所述序列挖掘模型对所述序列数据进行处理,得到所述序列数据的标签信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099547.7/2.html,转载请声明来源钻瓜专利网。