[发明专利]基于不同信息源自动生成报表的方法和系统在审
申请号: | 201711055134.3 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107908606A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 王盼;李晨光 | 申请(专利权)人: | 上海壹账通金融科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/30;G06Q10/10 |
代理公司: | 北京英特普罗知识产权代理有限公司11015 | 代理人: | 林彦之 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不同 信息源 自动 生成 报表 方法 系统 | ||
技术领域
本发明涉及互联网服务技术领域,尤其涉及基于不同信息源自动生成报表的方法。
背景技术
随着互联网爆炸式的发展,每天都在产生着大量数据,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。
在传统的方法中,需要对用户行为进行人工分类、判定,并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下,数据往往维度多、数据量大,人工很难将用户行为相关的指标统计全面。此外,由于人会出现疲劳等情况,这种传统的人工识别的方法准确率并不高。
在互联网逐渐步入大数据时代后,用户的行为在服务商面前都将是可视化的。服务商的关注点日也开始益聚焦于怎样利用大数据来精准营销,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。大数据使得服务商能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,用户画像(UserProfile)的概念应运而生,其用于通过用户标签抽象出用户的信息全貌,可以看作服务商应用大数据的根基。典型的用户画像是将用户信息标签化,就是服务商通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是服务商应用大数据技术的基本方式。
然而,目前,对用户标签的识别、用户画像的建立,主要还是通过人工干预和计算机简单处理转换的方式完成,存在有以下不足:1、耗时很长;2、人工成本高;3、生成的结果不够直观;4、信息录入有因人工导致的错误风险。
另外,过于依赖后台工作人员个人因素会导致得到的用户画像结果的差异性很大,而且也没有考虑到标签的时效性,会导致最终得到的用户画像不够精确。
在现有技术中,对用户行为进行分类和预测的方法较为单一,参考效果不理想。由于用户行为包括线上和线下行为,数据来源复杂,存在这样的需求:开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性、并生成用户画像的方案。
发明内容
有鉴于此,如何快速抓取信息并生成直观易懂的图表(用户标签和用户画像),供决策者进行决策的依据就成了一个重要的课题。申请人创造性地将多种数据源汇总分析,并按照指定业务场景自动生成各种图表,供决策者快速做成决策。
本发明的主要目的在于提供基于不同信息源自动生成各种图表的方法。该方法可通过使用Scrapy爬取网站相关信息、结合已有的业务数据,通过Web数据挖掘技术中的PageRank算法以及分类算法对不用来源的数据进行解析、分类,最后使用聚类分析生成描述,调用Python Charts生成用户标签,进一步抽象、汇总为用户画像。
根据本发明的实施例,提供了一种基于不同信息源自动生成报表的方法,包括:
步骤1、从第一信息源获取用户的静态信息数据;
步骤2、从第二信息源获取用户的动态信息数据;
步骤3、分析所获取的静态和动态信息数据,进行数据清洗,过滤/格式化后得到生成报表所需的数据,包括用户的多个标签;
步骤4、根据在步骤3获得的数据和标签,对用户的各个标签计算权重;
步骤5、将步骤4的计算结果与步骤3的数据结合,形成包含该用户各维度的数据集合。
根据本发明的实施例,其中,第一信息源是业务服务端的用户数据,第二信息源包括从第三方获取的用户行为数据、线下业务数据、以及与业务服务端的用户行为数据,所述用户行为数据包括使用Scrapy从第三方网站抓取的用户行为数据。
根据本发明的实施例,其中,在步骤4中,如下确定所述标签权重:
标签权重=衰减因子×行为权重×网址权重,
其中,衰减因子由用户的每个标签所涉及的用户行为数据的行为时间确定,行为权重由用户的每个标签所涉及的用户行为数据的行为类别确定,所述网址权重由用户的每个标签所涉及的信息源确定。
根据本发明的实施例,其中,所述步骤3包括:对静态和动态信息数据进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
根据本发明的实施例,其中,通过以下步骤,确定所述行为类别:
计算用户行为数据在预设的各个维度上的属性;
根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
根据所选的分类模型,对用户行为数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海壹账通金融科技有限公司,未经上海壹账通金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711055134.3/2.html,转载请声明来源钻瓜专利网。