[发明专利]一种数据源的匹配方法和装置有效

专利信息
申请号: 201711159895.3 申请日: 2017-11-20
公开(公告)号: CN107918657B 公开(公告)日: 2021-10-08
发明(设计)人: 王聪 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2457;G06F16/78
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 王仲凯
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据源 匹配 方法 装置
【说明书】:

发明实施例公开了一种数据源的匹配方法和装置,用于提高视频数据源融合的效率和准确性,且不需要人工参与就可以自动完成。在该方法中,从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,元信息包括:相应条目的多个数据属性;通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到;当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。

技术领域

本发明涉及计算机技术领域,尤其涉及一种数据源的匹配方法和装置。

背景技术

为方便用户选择能够符合用户需要的视频数据源,需要能够聚合来自多个视频数据源的视频链接,此时就产生了视频数据源的融合方法。

在现有技术中,目前常用的视频数据源融合方法主要包括如下两种:1)、人工添加的方式,即通过大量编辑人员去人工的进行判断,再根据人工的判断结果将多个视频链接聚合在一起;2)通过关键字匹配的方式,例如可通过标题内容的匹配方式,将具有相同标题的多个视频链接聚合在一起。

针对上述现有技术的视频数据源融合方法,这两种方式都有各自的缺陷:

1)针对人工添加的方式,这需要大量的编辑人员的人工投入,持续进行运营,而目前各大视频网站都有近百人的编辑团队来进行视频数据源聚合,这种方法不仅耗时耗力,而且每个编辑人员对视频内容的了解不一致,所以视频数据源融合的效率和准确性都无法得到保证;

2)针对关键字匹配的方式,这种方法只能解决标题内容的命名方式都很规范的情况,因此匹配成功率较低。

发明内容

本发明实施例提供了一种数据源的匹配方法和装置,用于提高视频数据源融合的效率和准确性,且不需要人工参与就可以自动完成。

为解决上述技术问题,本发明实施例提供以下技术方案:

第一方面,本发明实施例提供一种数据源的匹配方法,包括:

从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括:相应条目的多个数据属性;

通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性;

当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。

第二方面,本发明实施例还提供一种数据源的匹配装置,包括:

元信息获取模块,用于从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括;相应条目的多个数据属性信息;

模型匹配模块,用于通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性信息;

数据源聚合模块,用于当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711159895.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top