[发明专利]一种数据处理方法及系统在审
申请号: | 201710854051.4 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107741958A | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 魏晓林 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及系统。
背景技术
随着社会的发展,人类活动产生的数据量越来越大。尤其是今年来流行的大数据。
在使用这些数据前,我们需要对他进行恰当的处理。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
设备在运行过程中产生了大量的日志数据,用来记录发生的事件,包含用户的使用信息。通过大量的日志数据的分析能获得使用设备的用户的信息。对大量的用户信息进行统计分析能得到具有商业价值的结论。
在家庭中,我们使用的智能设备有很多种,例如平板电脑、智能手机、计算机。他们都能产生大量的日志数据。在这些数据中包含巨大的商业价值。如果以恰当的方式处理这些数据,就可以挖掘其中的价值。
通常在分析数据前,需要对数据进行分类处理,以便后续的分析。如公开号为CN106529110A的专利公开了一种用户数据的分类方法,所述方法包括:获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。此方法根据用户特征信息进行分类。
在现有技术中,数据的分类都是以用户个体来考虑。并不能最大限度的利用数据本身的价值。因为在现代的生活中,都是以家庭为单位的。单纯的以个体用户为单位进行数据处理和分析,并不能最大限度的利用数据的商业价值。
例如,在分析用户的消费情况时,既要考虑用户个体的消费情况,又需要考虑用户个体所在的家庭的消费结构。这样才能全面的分析用户及家庭的消费水平及类型。这就要求在数据处理时,提供可靠的家庭消费数据以及用户个体的消费数据。
发明内容
本发明所要解决的技术问题在于如何有效的处理用户日志信息数据,为用户画像元素提取和日志特征信息的分析提供数据来源和支撑,以便挖掘其中数据的商业价值。
本发明解决其技术问题,提出一种数据处理方法及系统。
所述数据处理方法包括:
获取用户日志信息数据集;
根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
进一步地,所述根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集包括:
根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
若存在,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;否则,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
所述根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集包括:
根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
若是,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;若否,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
进一步地,还包括:
根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
进一步地,所述将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中包括:
以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
所述数据处理系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710854051.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:折叠式臂杆锁紧结构
- 下一篇:控制臂球绞总成及装配工艺