[发明专利]基于不同信息源自动生成报表的方法和系统在审
申请号: | 201711055134.3 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107908606A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 王盼;李晨光 | 申请(专利权)人: | 上海壹账通金融科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/30;G06Q10/10 |
代理公司: | 北京英特普罗知识产权代理有限公司11015 | 代理人: | 林彦之 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不同 信息源 自动 生成 报表 方法 系统 | ||
1.基于不同信息源自动生成报表的方法,包括:
步骤1、从第一信息源获取用户的静态信息数据;
步骤2、从第二信息源获取用户的动态信息数据;
步骤3、分析所获取的静态和动态信息数据,进行数据清洗,过滤/格式化后得到生成报表所需的数据,包括用户的多个标签;
步骤4、根据在步骤3获得的数据和标签,对用户的各个标签计算权重;
步骤5、将步骤4的计算结果与步骤3的数据结合,形成包含该用户各维度的数据集合。
2.根据权利要求1所述的方法,其中,第一信息源是业务服务端的用户数据,第二信息源包括从第三方获取的用户行为数据、线下业务数据、以及与业务服务端的用户行为数据,所述用户行为数据包括使用Scrapy从第三方网站抓取的用户行为数据。
3.根据权利要求2所述的方法,其中,在步骤4中,如下确定所述标签权重:
标签权重=衰减因子×行为权重×网址权重,
其中,衰减因子由用户的每个标签所涉及的用户行为数据的行为时间确定,行为权重由用户的每个标签所涉及的用户行为数据的行为类别确定,所述网址权重由用户的每个标签所涉及的信息源确定。
4.根据权利要求1所述的方法,其中,所述步骤3包括:对静态和动态信息数据进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
5.根据权利要求4所述的方法,其中,通过以下步骤,确定所述行为类别:
计算用户行为数据在预设的各个维度上的属性;
根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
根据所选的分类模型,对用户行为数据进行分类。
6.根据权利要求5所述的方法,其中,确定所述行为类别的步骤还包括:
对用户身份进行识别,获取所述用户行为数据在各个维度上的属性,如果所述用户行为数据在部分维度的属性不完整,则调用该用户的历史行为数据,与所述预设时段的用户行为数据合并,补充所述部分维度的属性。
7.根据权利要求5所述的方法,其中,对于在业务服务端的用户行为数据,选择决策树分类模型,对于线下业务数据、和/或从第三方获取的所述用户行为数据,选择随机森林分类模型。
8.根据权利要求1所述的方法,其中,在步骤4中,用户的各个标签在不同业务场景下具有不同的权重值,
在步骤5中,在用户各维度的数据集合中,根据当前的业务场景,选择权重靠前的用户标签,进行可视化处理,生成用户画像。
9.一种基于不同信息源自动生成报表的系统,包括:
第一获取模块,用于从第一信息源获取用户的静态信息数据;
第二获取模块,用于从第二信息源获取用户的动态信息数据;
数据分析模块,用于分析所获取的静态和动态信息数据,进行数据清洗,过滤/格式化后得到生成报表所需的数据,包括用户的多个标签;
权重计算模块,用于根据第一获取模块和第二获取模块获取的数据、以及数据分析模块生成的标签,对用户的各个标签计算权重;
数据结合模块,用于将权重计算模块的计算结果与数据分析模块得到的数据结合,形成包含该用户各维度的数据集合。
10.一种计算机可读存储介质,其上存储有基于不同信息源自动生成报表的方法的程序,所述程序被处理器执行时,实现根据权利要求1至10中的一个所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海壹账通金融科技有限公司,未经上海壹账通金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711055134.3/1.html,转载请声明来源钻瓜专利网。