[发明专利]基于LDA模型从交易数据中提取信用变量的方法和装置有效
申请号: | 201610875556.4 | 申请日: | 2016-09-30 |
公开(公告)号: | CN107885754B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 赵科科;赵星 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/28;G06Q30/06;G06Q40/02 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王剑;林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 模型 交易 数据 提取 信用 变量 方法 装置 | ||
1.一种基于LDA模型从交易数据中提取信用变量的方法,其特征在于,所述方法包括:
基于用户的历史交易数据获取用户的频数矩阵,所述频数矩阵的行表示用户,所述频数矩阵的列表示类目,所述频数矩阵的任一元素为对应用户在对应类目下的购买频数;
将所述频数矩阵和预设的主题类目数量作为入参输入LDA模型,经过LDA模型计算后得到各主题类目以及所述用户与各主题类目的关联概率值;
将所述用户与目标主题类目的关联概率值作为所述用户的信用变量,其中,所述目标主题类目是根据所述关联概率值在所述主题类目中通过计算确定的,所述信用变量用于训练信用模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述频数矩阵不满足预设的参数要求时,基于所述频数矩阵进行样本频数矩阵的筛选,并将所述样本频数矩阵和所述预设的主题类目数量作为入参输入LDA模型,经过LDA模型计算后得到各主题类目以及样本频数矩阵中样本用户与各主题类目的关联概率值;
针对不属于样本频数矩阵的非样本用户,将所述非样本用户的频数矩阵和所述目标主题类目作为入参输入所述LDA模型,经过LDA模型计算后得到所述非样本用户与各目标主题类目的关联概率值,以作为所述非样本用户的信用变量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述频数矩阵进行样本频数矩阵的筛选,包括:
根据预设的过滤规则确定样本用户;
根据预设时段内所述样本用户在所有类目下的购买频数以及所述样本用户的信用信息,通过WOE值在所有类目中确定样本类目集;
根据所述样本用户和所述样本类目集在频数矩阵中进行样本频数矩阵的筛选,其中,所述样本频数矩阵的行表示所述样本用户,所述样本频数矩阵的列表示所述样本类目集中的样本类目,所述样本频数矩阵的任一元素为对应样本用户在对应样本类目下的购买频数。
4.根据权利要求3所述的方法,其特征在于,所述过滤规则包括:
注册时长不满预设时长、在所述预设时段内的购买频数小于预设频数、未存在对应的信用信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述频数矩阵的元素进行数值变换,以减少元素值的稀疏性和增加算法的稳定性;
将数值变换后的所述频数矩阵作为所述入参。
6.根据权利要求1所述的方法,其特征在于,所述目标主题类目的确定过程,包括:
根据所述关联概率值计算各主题类目的评估价值;
根据各主题类目的评估价值大小在所述主题类目中确定目标数量的目标主题类目。
7.根据权利要求6所述的方法,其特征在于,
所述评估价值包括:KS值、AUC值。
8.一种基于LDA模型从交易数据中提取信用变量的装置,其特征在于,所述装置包括:
矩阵获取单元,基于用户的历史交易数据获取用户的频数矩阵,所述频数矩阵的行表示用户,所述频数矩阵的列表示类目,所述频数矩阵的任一元素为对应用户在对应类目下的购买频数;
概率确定单元,将所述频数矩阵和预设的主题类目数量作为入参输入LDA模型,经过LDA模型计算后得到各主题类目以及所述用户与各主题类目的关联概率值;
第一变量确定单元,将所述用户与目标主题类目的关联概率值作为所述用户的信用变量,其中,所述目标主题类目是根据所述关联概率值在所述主题类目中通过计算确定的,所述信用变量用于训练信用模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610875556.4/1.html,转载请声明来源钻瓜专利网。