[发明专利]一种确定聚类样本差异的方法及装置在审
申请号: | 201510446969.6 | 申请日: | 2015-07-27 |
公开(公告)号: | CN105117733A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 王淑玲;冯伟斌;王志军 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 样本 差异 方法 装置 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种确定聚类样本差异的方法及装置。
背景技术
目前,利用云计算、大数据等技术对用户的终端类型、社交信息和消费信息等数据信息进行数据处理分析,可以为运营商的运营提供参考和依据。聚类为一种数据处理方法,即从一个样本空间中,按照衡量准则,将该样本空间划分为k个不相交的子集合,并使得子集合内样本的差异最小及子集合间样本的差异较大。为了衡量样本的差异,现有技术中采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来表示样本的差异。例如,样本是n维空间中的一个点,两个样本的差异可以用这两者的距离来表示。示例的,如图1所示,二维样本空间中用夹角余弦表征两个样本的差异。
需要说明的是,现有技术中采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来表示样本的差异均有一个共性,即数值性。样本的差异通过距离来衡量,并且在衡量差异时每一维有相同的权值,因此,样本的每一维属性均需要通过有意义的数值来表示,并且每一维的权值要均等。
但是,样本的属性还可以是颜色或性别等特征,即标称属性样本;或者,样本的属性为军阶等样本的值之间具有一定的顺序,但是样本的属性值之间的差未知,即序数属性样本。对于样本的属性值没有特定的数值意义的样本采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来进行运算表示样本的差异并无意义,因此,如何确定样本的属性值之间的差异是一个亟待解决的问题。
发明内容
本发明的实施例提供一种确定聚类样本差异的方法及装置,能够确定样本的属性值之间的差异。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种确定聚类样本差异的方法,包括:
将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取第一属性值的二进制码和第二属性值的二进制码;
获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
第二方面,提供一种确定聚类样本差异的装置,包括:
映射单元,用于将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取单元,用于获取第一属性值的二进制码和第二属性值的二进制码;
所述获取单元还用于获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
本发明实施例提供一种确定聚类样本差异的方法及装置。首先,将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;获取第一属性值的二进制码和第二属性值的二进制码;获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。相对于现有技术,通过距离来衡量样本的差异,本发明通过将不同属性的样本映射为二进制码,通过获取二进制码之间的差异,反应样本间或样本内的差异。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术提供一种二维样本空间中用夹角余弦表征两个样本的差异的示意图;
图2为本发明实施例提供一种确定聚类样本差异的方法流程图;
图3为本发明实施例提供另一种确定聚类样本差异的方法流程图;
图4为本发明实施例提供一种二叉树示意图;
图5为本发明实施例提供又一种确定聚类样本差异的方法流程图;
图6为本发明实施例提供一种二叉树示意图;
图7为本发明实施例提供一种确定聚类样本差异的装置结构示意图;
图8为本发明实施例提供另一种确定聚类样本差异的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种确定聚类样本差异的方法,如图2所示,包括:
步骤101、将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值。
步骤102、获取第一属性值的二进制码和第二属性值的二进制码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510446969.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液体药品自动取用器
- 下一篇:一种按摩洗脚器