[发明专利]一种数据处理方法和装置在审
申请号: | 201610069498.6 | 申请日: | 2016-02-01 |
公开(公告)号: | CN107025567A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 蒋龙龙;陈家耀;吴明辉 | 申请(专利权)人: | 秒针信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/26 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 韩辉峰,李丹 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
技术领域
本申请涉及但不限于数据分析领域,尤指一种数据处理方法和装置。
背景技术
随着智能电视领域技术的日益渐进,电视设备也从传统电视变为如今具备操作系统、具有平台特性的智能电视,智能电视逐渐成为每个家庭必备的娱乐设备。智能电视允许用户在欣赏普通电视节目的同时,自行安装和卸载各类应用软件以对其功能进行扩充,并具备通过网络回传用户数据的功能。
如今,随着多样化的网民属性估算技术的日趋成熟,家庭人口属性估算成为当务之急。准确的定位一个家庭的组成情况对于媒体的精准投放,广告主的商业营销方向,政府的监管及人口统计,人口大数据的分析有着至关重要的意义。而现有对家庭人口属性统计的方法仍然停留在人工走访调研的水平,此种做法费时费力,同时统计期限漫长。
发明内容
本申请提供了一种数据处理方法和装置,能够更加快速、便捷的获知家庭的组成构架。
为了达到本申请目的,本申请提供了一种数据处理方法,包括:
收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
根据计算出的第一相似度确定终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,在所述统计所述与智能设备关联的终端ID的上网行为向量之后,在所述计算所述第一相似度之前,该方法还包括:
根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
进一步地,所述根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类包括:
分别计算与所述智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分为相同类的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
进一步地,所述计算分为相同类的终端ID的上网行为向量包括:计算分为相同类的所述两个终端ID的上网行为向量的向量和值作为所述分为相同类的两个终端ID的上网行为向量。
进一步地,该方法之前还包括:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。
进一步地,所述根据计算出的第一相似度确定终端ID的身份类别包括:
分别确定各个分类后的终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述分类后的该终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是一个时,所述根据计算出的第一相似度确定终端ID的身份类别包括:
确定所述终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述终端ID的身份类别。
本申请还提供了一种数据处理装置,包括:确定模块、统计模块、计算模块和分类模块
确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计模块,用于统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
计算模块,用于分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
分类模块,用于根据计算出的第一相似度确定终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
进一步地,所述处理模块,具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于秒针信息技术有限公司,未经秒针信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610069498.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:储物柜(玻璃掩门组合用)
- 下一篇:儿童荼具(红熊13头)