[发明专利]数据融合方法及系统有效
申请号: | 201610056060.4 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105740380B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 范春晓;张骏;赵天霖;吴岳辛;卢诚知;肖傲 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06Q30/06 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨文娟;黄健 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配 相似度 基准特征 商品数据 数据融合 参数相似度 融合数据 数据集中 数据集 准确率 冲突 | ||
1.一种数据融合方法,其特征在于,包括:
获取多个电商网站上的商品数据,得到电商数据集,所述电商数据集,包括至少两级数据结构;
根据商品基准特征,分别计算所述电商数据集中多个商品数据对应商品之间的第一商品相似度;
将所述第一商品相似度大于设定相似度的一组商品作为匹配商品,得到第一匹配商品列表;
根据所述匹配商品的各级参数,计算所述匹配商品中每级参数之间的参数相似度,得到参数相似度列表;
根据所述参数相似度列表中的各参数相似度,计算出所述匹配商品之间的第二商品相似度;
根据所述第二商品相似度与所述设定相似度之间的关系,得到第二匹配商品列表;
判断所述第二匹配商品列表相对于所述第一匹配商品列表是否发生变化;
若是,返回执行根据所述匹配商品的各级参数,计算所述匹配商品中每级参数之间的参数相似度;
若否,解决所述第二匹配商品列表中各商品之间存在的各级参数冲突,得到融合数据。
2.根据权利要求1所述的数据融合方法,其特征在于,在根据商品基准特征,分别计算所述电商数据集中多个商品数据对应商品之间的第一商品相似度之前,还包括:
对所述电商数据集中的多个商品数据进行预处理,得到多个归一化商品数据,所述预处理,包括:数据去重、数据去噪、数据归一化;
从所述归一化商品数据中提取所述归一化商品数据对应商品的商品型号和商品标题名作为商品基准特征;
相应的,所述根据商品基准特征,分别计算所述电商数据集中多个商品数据对应商品之间的第一商品相似度,具体包括:
根据所述商品型号和所述商品标题名,计算各所述归一化商品数据对应商品之间的第一商品相似度。
3.根据权利要求1所述的数据融合方法,其特征在于,所述根据所述参数相似度列表中的各参数相似度,计算出所述匹配商品之间的第二商品相似度,具体包括:
根据所述参数相似度列表中的各参数相似度以及各所述参数相似度对应的权重值,通过加权求和算法,计算出所述匹配商品之间的第二商品相似度。
4.根据权利要求1~3任一项所述的数据融合方法,其特征在于,所述解决所述第二匹配商品列表中各商品之间存在的各级参数冲突,具体包括:
根据所述第二匹配商品列表,得到包括商品、商品标题名、商品参数名以及商品参数内容的参数匹配表;
对于所述参数匹配表中缺失的商品参数内容,若所述多个电商网站中只有第一电商网站上有所述商品参数内容,则利用所述第一电商网站上的商品参数内容进行填补;
若所述多个电商网站上均没有所述商品参数内容,则利用空值对所述缺失的商品参数内容进行填补;
若所述参数匹配表中有商品参数内容相冲突的商品对,则根据所述商品对中各商品的可信度和支持度,选取可信度最高且支持度最高的商品对应的商品参数内容作为所述商品对的商品参数内容;
若所述参数匹配表中各商品参数名的命名规则不一致,则按照设定的命名规则进行命名。
5.根据权利要求4所述的数据融合方法,其特征在于,
若所述电商数据集,包括两级数据结构,一级数据结构为所述商品标题名,二级数据结构为所述商品参数名;
若所述电商数据集,包括三级数据结构,一级数据结构为所述商品标题名,二级数据结构为所述商品参数名,三级数据结构为所述商品参数内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056060.4/1.html,转载请声明来源钻瓜专利网。