[发明专利]数据融合方法及系统有效
申请号: | 201610056060.4 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105740380B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 范春晓;张骏;赵天霖;吴岳辛;卢诚知;肖傲 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06Q30/06 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨文娟;黄健 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配 相似度 基准特征 商品数据 数据融合 参数相似度 融合数据 数据集中 数据集 准确率 冲突 | ||
本发明提供一种数据融合方法及系统,其中,该方法包括:获取商品数据对应的电商数据集,根据商品基准特征,计算该电商数据集中商品数据对应商品之间的第一商品相似度,并将大于设定相似度的一组商品作为匹配商品,得到第一匹配商品列表,根据匹配商品的各级参数,计算匹配商品中每级参数之间的参数相似度,进而计算出匹配商品之间的第二商品相似度,获得第二匹配商品列表,若第二匹配商品列表相对于第一匹配商品列表没有变化,则解决该第二匹配商品列表中各商品之间存在的各级参数冲突,得到融合数据。本发明的技术方案,通过综合利用商品基准特征和商品的各级参数对商品进行多次匹配,匹配的准确率高、速度快、效率高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据融合方法及系统。
背景技术
随着科学技术的不断发展,足不出户便可购到所需物品的网络购物方式变得越来越流行,而电商网站是网络购物的载体,其上承载了大量商品的相关信息,人们的网购活动主要在电商网站上完成。然而,在不同的电商网站上可能出现同一商品用不同参数进行描述的现象,即使在同一网站,由于分类不同或由不同商家售卖,也会出现同一商品用不同参数进行描述的现象。因此,如果能将多个电商网站的数据进行融合,也即,将不同电商网站的相同商品和商品参数描述对应起来,并用统一的语言和格式进行存储,不仅可以对各个电商网站的商品数据做联合分析,而且还可以消除单个电商网站出现的参数描述错误的情况。
目前,现有电商网站数据融合的方法可以总结为:首先从不同的电商网站上提取商品型号和商品标题名,然后分别将各电商网站上的商品型号和商品标题名进行一一匹配,最后将匹配得到的各商品数据进行融合,进而解决同一商品在不同电商网站上商品型号或商品参数描述不一致的问题。
然而,现有电商网站数据融合的方法只能对商品型号明确和商品标题名命名规范的商品进行匹配,可用的匹配参数较少,无法对商品细节的匹配进行控制,因此,匹配的商品数量较少、类型有限,致使出现匹配错误的概率高,效率低。
发明内容
本发明提供一种数据融合方法及系统,以解决现有数据融合方法匹配商品数量较少、类型有限、可用参数较少、匹配错误概率高、效率低的问题。
本发明提供的一种数据融合方法,包括:
获取多个电商网站上的商品数据,得到电商数据集;
根据商品基准特征,分别计算所述电商数据集中多个商品数据对应商品之间的第一商品相似度;
将所述第一商品相似度大于设定相似度的一组商品作为匹配商品,得到第一匹配商品列表;
根据所述匹配商品的各级参数,计算所述匹配商品中每级参数之间的参数相似度,得到参数相似度列表;
根据所述参数相似度列表中的各参数相似度,计算出所述匹配商品之间的第二商品相似度;
根据所述第二商品相似度与所述设定相似度之间的关系,得到第二匹配商品列表;
判断所述第二匹配商品列表相对于所述第一匹配商品列表是否发生变化;
若是,返回执行根据所述匹配商品的各级参数,计算所述匹配商品中每级参数之间的参数相似度;
若否,解决所述第二匹配商品列表中各商品之间存在的各级参数冲突,得到融合数据。
本发明还提供的一种数据融合系统,包括:
获取模块,用于获取多个电商网站上的商品数据,得到电商数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056060.4/2.html,转载请声明来源钻瓜专利网。