[发明专利]一种数据源的匹配方法和装置有效

申请号：	201711159895.3	申请日：	2017-11-20
公开（公告）号：	CN107918657B	公开（公告）日：	2021-10-08
发明（设计）人：	王聪	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/2457;G06F16/78
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据源匹配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据源的匹配方法，其特征在于，包括：

从第一数据源中获取到第一条目的元信息，以及从第二数据源中获取到第二条目的元信息，所述元信息包括：相应条目的多个数据属性；

通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目，以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目，所述条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到，所述历史数据源样本数据包括：在多个数据源中每个条目样本的历史数据属性；

当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时，将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。

2.根据权利要求1所述的方法，其特征在于，所述通过条目匹配决策模型分别查找基础条目存储库中与所述第一条目的元信息匹配的基础条目之前，所述方法还包括：

按照每个数据属性分别对所述历史数据源样本数据进行划分，得到每个数据属性所对应的数据划分结果；

分别计算每个数据划分结果的信息增益，并选择信息增益最大的数据划分结果对应的数据属性作为分割点；

按照所述分割点将所述历史数据源样本数据划分为两个样本数据子集，对于每个样本数据子集重新计算各个数据属性的信息增益，并按照信息增益最大的原则继续划分样本数据子集，直至一个样本数据子集中的样本数据都属于相同的类，输出分裂完成后的决策树模型。

3.根据权利要求2所述的方法，其特征在于，所述输出分裂完成后的决策树模型之后，所述方法还包括：

使用先验数据源样本数据对所述决策树模型进行精确度校验。

4.根据权利要求2所述的方法，其特征在于，所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目，包括：

通过所述条目匹配决策模型计算所述基础条目存储库中每一个基础条目分别与所述第一条目的元信息的匹配分值；

从多个所述匹配分值中选择最大分值的基础条目作为与所述第一条目的元信息匹配的基础条目。

5.根据权利要求4所述的方法，其特征在于，所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目，还包括：

当最大分值的基础条目为至少两个基础条目时，获取每个数据属性对应的权重；