[发明专利]一种基于多源迁移学习的数据校验方法有效

申请号：	201810320808.6	申请日：	2018-04-11
公开（公告）号：	CN108549907B	公开（公告）日：	2021-11-16
发明（设计）人：	李石君;刘洋;杨济海;邓永康;余伟;余放;李宇轩	申请（专利权）人：	武汉大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/16
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	薛玲
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迁移学习数据校验方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多源迁移学习的数据校验方法，其特征在于，包括以下步骤：

步骤1：通过系统数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属系统以及通过pagerank算法计算得到的站点中心度构建站点属性，通过各省各站点的站点属性进一步构建源数据集并进行归一化，通过预测省份的站点属性进一步构建目标训练集并进行归一化，提取源数据集以及目标训练集对应的站点业务数量并进行归一化；

步骤2：通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型；

步骤3：初始化源数据以及目标省份各站点的权重，归一化初始化源数据以及目标省份各站点的权重，并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重，通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集；

步骤4：将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数；

步骤5：重复步骤4至到最大迭代次数并计算最终的预测模型；

步骤6：用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量，并对预测站点业务数量进行反归一化。

2.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤1中所述站点属性即特征向量为：

其中，为省份S_k站点m的站点属性,S_k∈[1，S_N]，N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属系统，为省份S_k站点m的站点中心度；

从系统的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属系统，省份S_k站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化：

其中,为省份S_k站点m的中心度，为省份S_k站点的数量，为省份S_k站点m的度,进一步根据PageRank算法迭代更新中心度，直到趋于平稳，用以下公式更新:

其中，iter为PageRank算法迭代的次数，N_I＝500为PageRank算法迭代的总次数，为第iter迭代中省份S_k站点m的中心度,为省份S_k的所有站点对省份S_k站点m有光缆连接的站点集合，为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目，α为阻尼系数；

根据数据量较大的各个省份的站点属性构建源数据集：

其中，N为数据量较大的省份的数量，为第S_k个源数据，第S_k个源数据即省份S_k包含个样本即个站点:

其中，为省份S_k站点的数量即样本的数量；为省份S_k站点m的站点属性,S_k∈[1，S_N]，S_N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属系统，为省份S_k站点m的站点中心度；