[发明专利]一种基于互联网应用的用户信息识别分类方法和系统在审

专利信息
申请号: 201510931773.6 申请日: 2015-12-11
公开(公告)号: CN105577431A 公开(公告)日: 2016-05-11
发明(设计)人: 孙波;张伟;房婧;鲁骁;盖伟麟;张建松;姜栋;李应博;刘成;李轶夫;杜雄杰;司成祥;张旋;胡森;季祖生;王凌鸷;钟磊 申请(专利权)人: 青岛云成互动网络有限公司
主分类号: H04L12/24 分类号: H04L12/24
代理公司: 北京立成智业专利代理事务所(普通合伙) 11310 代理人: 张江涵
地址: 266200 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互联网 应用 用户信息 识别 分类 方法 系统
【说明书】:

技术领域

发明属于通讯领域,特别是涉及一种基于互联网应用的用户信息识别 分类方法和系统。

背景技术

在互联网快速发展的今天,网络上的信息日益膨胀,面对这众多的信息 资源,广大网民发现越来越难以获得自己想要的信息。个性化的服务技术就 是在这种需求背景下诞生的,个性化服务是根据用户的设定来实现的,是一 种有针对性的服务方式,通过各种渠道对资源进行收集、整理和分类,向用 户提供和推荐相关信息,以满足用户的需求。个性化服务打破了传统被动式 的服务模式,能够充分利用各种资源优势,主动开展以满足用户个性化需求 为目的的服务。而提供个性化的关键,就在于能够对于用户的行为有着合理 的对应关系,只有拥有了这样的对应关系,才有可能进行个性化推荐和筛选。 现有的互联网应用的用户信息识别技术研究,主要集中在WEB信息的抽取 与分析,所采取的方法有关于WEB信息自动数据记录分析、基于Cookie技 术和启发式规则的用户识别,或基于WEB日志挖掘的用户信息需求识别等, 但随着APP模式的出现,大量的互联网应用软件涌现,单纯通过WEB信息 抽取与分析具有极大的局限性,难以达到有效解决互联网信息识别技术问题, 以及如何通过海量信息还原一个用户的真实行为,传统数据收集和识别方式 有其局限性,主要有以下原因:

1.浏览器Http协议无状态。Http协议是无状态协议,将同一个人的数 据聚合起来,难度本来就比较高,必须通过Cookie,URL参数等不稳定的方 式追踪一个人的行为。

2.40%的Cookie清除率。从实际的数据上来看,大约40%的用户会清除 自己的Cookie,这对于数据收集,Join非常不利。用户清除Cookie的原因很 多,包括:由于360,搜狗等现代浏览器的出现,用户清除Cookie的代价非 常小,甚至很多浏览器会主动提示;360,腾讯,百度等厂商提供的“安全卫 士”等产品会对浏览器数据进行清除,这些工作可能是在用户没有意识的情况 下进行的;网吧的还原精灵等自动还原工具的存在。

3.大量非登录用户。当前互联网很多服务为了降低用户使用门槛,很 多服务都不要求用户登录。这样进一步提高了用户识别的难度。

4.在线时间短,数据稀疏。在线时间是另外一个传统收集用户数据的软 肋。

这些问题严重制约着个性化服务的展开和发展。

发明内容

为解决上述问题,本发明提供了一种基于互联网应用的用户信息识别分 类方法包括以下步骤:

1.获取应用用户的使用信息。

2.实时数据分析。

3.离线储存。

4.离线数据分析。

5.分析结果汇总。

步骤1获取的信息为用户使用应用时产生的日志数据。

进一步的,步骤1收集的日志数据包括:用户设备ID;用户账号信息收 集;用户社会关系收集;用户地缘信息收集。

步骤2所述实时数据分析包括:

首先对收集到的日志数据进行格式化汇总:将该日志数据进行Json格式 化为一个JSON字符串:每条log包含有一个logId、一个partnerId和一个 cookieId。其中,log代表日志;logId代表日志唯一id,每条日志随机生成; partnerId代表用户分组id;cookieId代表客户端标识,同一个客户端cookieId 相同。

然后进行实时的初步分类汇总,分为:关键信息和非关键信息,关键信 息和非关键信息均包含一个或多个key-value对;关键信息的key为事件名称, value为事件发生的次数,会进入实时汇总计算;非关键信息的key和value 任意,并且不进入实时汇总计算。

最后对关键信息进行多层级分类汇总形成多个统计表,每个表格的名称 为partnerId,表格内容为关键信息和发生次数,将每条log格式化后的数据 partnerId,关键信息,发生次数,更新到表格中。

进一步的,这些表格的信息,每隔一段时间生成统计数据点,之后清零。 这样就能得到最新的数据和每个数据点间隔时间之间的数据。

优选的,间隔时间可以选择为1分钟、3分钟、5分钟或10分钟。

进一步的,所述log内容还可以分为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛云成互动网络有限公司,未经青岛云成互动网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510931773.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top