[发明专利]一种基于互联网应用的用户信息识别分类方法和系统在审
申请号: | 201510931773.6 | 申请日: | 2015-12-11 |
公开(公告)号: | CN105577431A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 孙波;张伟;房婧;鲁骁;盖伟麟;张建松;姜栋;李应博;刘成;李轶夫;杜雄杰;司成祥;张旋;胡森;季祖生;王凌鸷;钟磊 | 申请(专利权)人: | 青岛云成互动网络有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京立成智业专利代理事务所(普通合伙) 11310 | 代理人: | 张江涵 |
地址: | 266200 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 应用 用户信息 识别 分类 方法 系统 | ||
技术领域
本发明属于通讯领域,特别是涉及一种基于互联网应用的用户信息识别 分类方法和系统。
背景技术
在互联网快速发展的今天,网络上的信息日益膨胀,面对这众多的信息 资源,广大网民发现越来越难以获得自己想要的信息。个性化的服务技术就 是在这种需求背景下诞生的,个性化服务是根据用户的设定来实现的,是一 种有针对性的服务方式,通过各种渠道对资源进行收集、整理和分类,向用 户提供和推荐相关信息,以满足用户的需求。个性化服务打破了传统被动式 的服务模式,能够充分利用各种资源优势,主动开展以满足用户个性化需求 为目的的服务。而提供个性化的关键,就在于能够对于用户的行为有着合理 的对应关系,只有拥有了这样的对应关系,才有可能进行个性化推荐和筛选。 现有的互联网应用的用户信息识别技术研究,主要集中在WEB信息的抽取 与分析,所采取的方法有关于WEB信息自动数据记录分析、基于Cookie技 术和启发式规则的用户识别,或基于WEB日志挖掘的用户信息需求识别等, 但随着APP模式的出现,大量的互联网应用软件涌现,单纯通过WEB信息 抽取与分析具有极大的局限性,难以达到有效解决互联网信息识别技术问题, 以及如何通过海量信息还原一个用户的真实行为,传统数据收集和识别方式 有其局限性,主要有以下原因:
1.浏览器Http协议无状态。Http协议是无状态协议,将同一个人的数 据聚合起来,难度本来就比较高,必须通过Cookie,URL参数等不稳定的方 式追踪一个人的行为。
2.40%的Cookie清除率。从实际的数据上来看,大约40%的用户会清除 自己的Cookie,这对于数据收集,Join非常不利。用户清除Cookie的原因很 多,包括:由于360,搜狗等现代浏览器的出现,用户清除Cookie的代价非 常小,甚至很多浏览器会主动提示;360,腾讯,百度等厂商提供的“安全卫 士”等产品会对浏览器数据进行清除,这些工作可能是在用户没有意识的情况 下进行的;网吧的还原精灵等自动还原工具的存在。
3.大量非登录用户。当前互联网很多服务为了降低用户使用门槛,很 多服务都不要求用户登录。这样进一步提高了用户识别的难度。
4.在线时间短,数据稀疏。在线时间是另外一个传统收集用户数据的软 肋。
这些问题严重制约着个性化服务的展开和发展。
发明内容
为解决上述问题,本发明提供了一种基于互联网应用的用户信息识别分 类方法包括以下步骤:
1.获取应用用户的使用信息。
2.实时数据分析。
3.离线储存。
4.离线数据分析。
5.分析结果汇总。
步骤1获取的信息为用户使用应用时产生的日志数据。
进一步的,步骤1收集的日志数据包括:用户设备ID;用户账号信息收 集;用户社会关系收集;用户地缘信息收集。
步骤2所述实时数据分析包括:
首先对收集到的日志数据进行格式化汇总:将该日志数据进行Json格式 化为一个JSON字符串:每条log包含有一个logId、一个partnerId和一个 cookieId。其中,log代表日志;logId代表日志唯一id,每条日志随机生成; partnerId代表用户分组id;cookieId代表客户端标识,同一个客户端cookieId 相同。
然后进行实时的初步分类汇总,分为:关键信息和非关键信息,关键信 息和非关键信息均包含一个或多个key-value对;关键信息的key为事件名称, value为事件发生的次数,会进入实时汇总计算;非关键信息的key和value 任意,并且不进入实时汇总计算。
最后对关键信息进行多层级分类汇总形成多个统计表,每个表格的名称 为partnerId,表格内容为关键信息和发生次数,将每条log格式化后的数据 partnerId,关键信息,发生次数,更新到表格中。
进一步的,这些表格的信息,每隔一段时间生成统计数据点,之后清零。 这样就能得到最新的数据和每个数据点间隔时间之间的数据。
优选的,间隔时间可以选择为1分钟、3分钟、5分钟或10分钟。
进一步的,所述log内容还可以分为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛云成互动网络有限公司,未经青岛云成互动网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510931773.6/2.html,转载请声明来源钻瓜专利网。