[发明专利]一种物联网数据相似度处理方法在审
申请号: | 201510535354.0 | 申请日: | 2015-08-27 |
公开(公告)号: | CN105205107A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 谢东;肖东;成运 | 申请(专利权)人: | 湖南人文科技学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 417000*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联网 数据 相似 处理 方法 | ||
技术领域
本发明涉及数据处理领域,特别是涉及一种物联网数据相似度处理方法。
背景技术
自Internet出现以来,互联网上的WEB页面的数量就飞速增长着,也恰是由于其这种增长速度,形成了世界上最大的信息资源库。WEB信息整合技术就是对这一个信息资源库进行有效处理,整合相关信息,为数据挖掘提供数据方面的支撑,以便更好地应用于专业领域中的信息服务。在当前飞速发展的网络时代,信息资源日益丰富,WEB信息整合已成为信息时代的重要内容,在多个领域中都有WEB信息整合的应用。
如在物联网领域中,产品供货商可以通过多个WEB交易平台发布产品信息,而买家可以从WEB交易平台中获取信息,并通过产品供货商所发布的信息可以联系到产品供货商进行购买;在这一过程中,就涉及到大量数据的处理。但是,由于每个WEB交易平台对信息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个产品供货商去不同的WEB交易平台发布同一个产品可能会出现不同的表现形式,其会造成这些WEB产品交易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同WEB数据源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判断是否有重复数据的重要保障。
产品数据的清洗过程中,最主要的是清除产品多条记录中的相似重复记录,以保证建立一个全面、准确、专业、符合数据质量条件的产品数据库;此时,就需要对多条记录进行相似度计算。目前,数据相似度的计算主要是通过一一比对来实现的,其运算速度非常慢,消耗大量的时间成本。
发明内容
鉴于以上所述现有技术的缺陷和各种不足之处,本发明要解决的技术问题在于提供一种能够节省大量时间成本的物联网数据相似度处理方法。
为实现上述目的,本发明提供一种物联网数据相似度处理方法,包括以下步骤:
S1、从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记录,分别为第一产品记录和第二产品记录;
S2、将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第二数组中;
S3、对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值,并将多个属性的属性相似度值保存在第三数组中;
S4、根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值,并将多个属性的权重值保存在第四数组中;
S5、结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。
进一步地,所述步骤S3中,属性函数包括产品别称匹配策略函数、产品价格转换匹配策略函数、规范化日期匹配策略函数、规范化产地匹配策略函数和编辑距离算法函数。
优选地,所述步骤S2中,第一产品记录的属性按照产品名称、价格、生产日期、产地的顺序先后放入多个第一属性数组中,多个第一属性数组构成所述第一数组。
优选地,所述步骤S2中,第二产品记录的属性按照产品名称、价格、生产日期、产地的顺序先后放入多个第二属性数组中,多个第二属性数组构成所述第二数组。
本发明涉及的一种物联网数据相似度处理方法具有以下有益效果:
本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进行整体相似度的计算,其处理速度快,计算精度高,从而可以节省大量的时间成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图对本专利进行详细说明。
附图说明
图1为本申请的流程图。
图2为本申请中产品别称匹配策略函数的流程图。
图3为本申请中产品价格转换匹配策略函数的流程图。
图4为本申请中规范化日期匹配策略函数的流程图。
图5为本申请中规范化产地匹配策略函数的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细介绍。
如图1所示,本发明提供一种数据相似度处理方法,包括以下步骤:
S1、从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记录,分别为第一产品记录A和第二产品记录B。
S2、将第一产品记录A的属性保存在第一数组a[]中,将第二产品记录B的属性保存在第二数组b[]中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南人文科技学院,未经湖南人文科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510535354.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时序数据异常特征的挖掘系统及方法
- 下一篇:一种云平台数据获取方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置