[发明专利]一种数据源的匹配方法和装置有效
申请号: | 201711159895.3 | 申请日: | 2017-11-20 |
公开(公告)号: | CN107918657B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 王聪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2457;G06F16/78 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据源 匹配 方法 装置 | ||
1.一种数据源的匹配方法,其特征在于,包括:
从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括:相应条目的多个数据属性;
通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性;
当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
2.根据权利要求1所述的方法,其特征在于,所述通过条目匹配决策模型分别查找基础条目存储库中与所述第一条目的元信息匹配的基础条目之前,所述方法还包括:
按照每个数据属性分别对所述历史数据源样本数据进行划分,得到每个数据属性所对应的数据划分结果;
分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点;
按照所述分割点将所述历史数据源样本数据划分为两个样本数据子集,对于每个样本数据子集重新计算各个数据属性的信息增益,并按照信息增益最大的原则继续划分样本数据子集,直至一个样本数据子集中的样本数据都属于相同的类,输出分裂完成后的决策树模型。
3.根据权利要求2所述的方法,其特征在于,所述输出分裂完成后的决策树模型之后,所述方法还包括:
使用先验数据源样本数据对所述决策树模型进行精确度校验。
4.根据权利要求2所述的方法,其特征在于,所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,包括:
通过所述条目匹配决策模型计算所述基础条目存储库中每一个基础条目分别与所述第一条目的元信息的匹配分值;
从多个所述匹配分值中选择最大分值的基础条目作为与所述第一条目的元信息匹配的基础条目。
5.根据权利要求4所述的方法,其特征在于,所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,还包括:
当最大分值的基础条目为至少两个基础条目时,获取每个数据属性对应的权重;
根据所述每个数据属性对应的权重计算所述至少两个基础条目各自的总权重分数,所述总权重分数为一个基础条目中每个数据属性与对应该数据属性的权重乘积的总和;
从至少两个的总权重分数中选择最大分数的基础条目作为与所述第一条目的元信息匹配的基础条目。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
当通过所述条目匹配决策模型没有为所述第一条目和所述第二条目匹配到基础条目时,对所述第一条目和所述第二条目进行聚类分析;
当所述第一条目和所述第二条目被划分到相同的类目时,将所述第一数据源和所述第二数据源关联到所述相同的类目上。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一条目和所述第二条目进行聚类分析,包括:
获取所述第一条目的交叉收录数据源,以及获取所述第二条目的交叉收录数据源;
若所述第一条目和所述第二条目具有相同的交叉收录数据源时,确定所述第一条目和所述第二条目被划分到相同的类目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711159895.3/1.html,转载请声明来源钻瓜专利网。