[发明专利]一种模型训练的方法、系统及电子设备在审
申请号: | 202111246523.0 | 申请日: | 2021-10-26 |
公开(公告)号: | CN114021716A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李先飞;王龙;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F16/36;G06F16/35;G06F16/33;G06F16/335 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张洁 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 系统 电子设备 | ||
一种模型训练的方法、系统及电子设备,该方法包括:获取标准数据以及原始数据,建立标准数据与原始数据的第一关联关系,并获得训练样本,根据标准数据与现实数据的语义相似度,建立所述标准数据与所述现实数据的第二关联关系,根据所述第一关联关系以及所述第二关联关系,获得初始图谱数据,并将所述训练样本放入所述初始图谱数据中,将所述初始图谱数据放入图神经网络模型中进行N次训练,获得N个损失值,将所述N个损失值中最小损失值对应的训练模型作为预测模型,通过上述方法对初始图谱数据进行学习训练,获得预测模型,在输入字段进行匹配时,能够通过预测模型筛选出最大损失值对应的数据元,提高了字段关联的结果的准确度。
技术领域
本申请涉及模型训练领域,尤其涉及一种模型训练的方法、系统及电子设备。
背景技术
随着大数据时代的到来,数据已经成为企业的重要资产,同一类型的数据在不同企业中进行数据分析时,由于企业的性质以及企业的需求不一致,对同一批数据分析时评判标准不同,导致同一类型的数据对应着不同的评判标准,比如:同一类型的直播带货数据,传媒性质的公司的评判标准为在直播间进行消费的粉丝数量与在直播间粉丝数量的比值是否达到预期比值,财政性质的公司的评判标准为直播的营业额是否达到预期营业额。
由于评判标准无法达成统一,因此不同企业之间的数据无法进行比较分析,为了降低数据分析的复杂度,在数据分析时,需要一个统一的评判标准,采用的方式是将企业原始数据的字段进行对标,将字段与数据元形成关联关系,字段为企业原始数据的名称,数据元为字段的统称,从而将企业原始数据关联为统一的标准数据,比如:企业原始数据的字段为“房东身份证号”、“租客身份证号”、“居民身份证”、“临时居民身份证”,将企业原始数据关联成为统一的标准数据后,企业原始数据的字段对应的数据元为“身份证号”。
目前,为了将企业原始数据的字段关联为标准数据,现有的模型是根据字段与数据元之间的语义相似度进行训练,字段是企业原始数据中数据的名称,由于字段命名方式多样,字段中包含下划线、空格、中英混杂等,导致通过训练出的模型得到的字段与数据元的关联关系不准确,或者通过该模型不能得到输入字段对应的数据元。
发明内容
本申请提供了一种模型训练的方法、系统及电子设备,通过对初始图谱数据进行学习训练,构建预测模型,预测模型中存储了大量的已对标数据以及可能对标的数据,在对字段的数据元进行预测时,避免了字段匹配不出数据元的问题,将筛选出最优的数据元作为结果输出,提高了字段关联结果的准确度。
第一方面,本申请提供了一种模型训练的方法,所述方法包括:
获取标准数据以及原始数据,建立所述标准数据与所述原始数据的第一关联关系,并获得训练样本,其中,原始数据为各个企业中未经过任何处理的数据表;
根据所述标准数据与现实数据的语义相似度,建立所述标准数据与所述现实数据的第二关联关系;
根据所述第一关联关系以及所述第二关联关系,获得初始图谱数据,并将所述训练样本放入所述初始图谱数据中;
将所述初始图谱数据放入图神经网络模型中进行N次训练,获得N个损失值,其中,N为正整数;
将所述N个损失值中最小损失值对应的训练模型作为预测模型,其中,损失值表示预测模型的预测结果准确度。
通过上述描述的方法,通过对初始图谱数据的迭代训练,获得多个训练模型以及训练模型对应的损失值,筛选出最大损失值对应的训练模型,将该训练模型作为预测模型,该预测模型是训练过程中得到的预测结果准确度最高的模型,避免了用户的字段匹配不到数据元或者字段匹配出数据元与字段的关联性不强的问题,提高了预结果的准确性。
在一种可能的设计中,建立所述标准数据与所述原始数据的第一关联关系,包括:
从所述原始数据中的数据表中获取字段;
从所述标准数据中获取数据元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111246523.0/2.html,转载请声明来源钻瓜专利网。