[发明专利]一种模型训练的方法、系统及电子设备在审
申请号: | 202111246523.0 | 申请日: | 2021-10-26 |
公开(公告)号: | CN114021716A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李先飞;王龙;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F16/36;G06F16/35;G06F16/33;G06F16/335 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张洁 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 系统 电子设备 | ||
1.一种模型训练的方法,其特征在于,包括:
获取标准数据以及原始数据,建立所述标准数据与所述原始数据的第一关联关系,并获得训练样本,其中,原始数据为各个企业中未经过任何处理的数据表;
根据所述标准数据与现实数据的语义相似度,建立所述标准数据与所述现实数据的第二关联关系;
根据所述第一关联关系以及所述第二关联关系,获得初始图谱数据,并将所述训练样本放入所述初始图谱数据中;
将所述初始图谱数据放入图神经网络模型中进行N次训练,获得N个损失值,其中,N为正整数;
将所述N个损失值中最小损失值对应的训练模型作为预测模型,其中,损失值反应预测模型的预测结果准确度。
2.如权利要求1所述的方法,其特征在于,建立所述标准数据与所述原始数据的第一关联关系,包括:
从所述原始数据中的数据表中获取字段,其中,数据表由字段组成;
从所述标准数据中获取数据元,其中,标准数据由数据元以及标准表组成;
按照预设规则将所述字段与所述数据元进行关联;
根据所述字段与所述数据元的关联关系,建立所述标准数据与所述原始数据的第一关联关系。
3.如权利要求1所述的方法,其特征在于,根据所述标准数据与现实数据的语义相似度,建立所述标准数据与所述现实数据的第二关联关系,包括:
获取现实数据中的S个现实表,其中,现实表由字段组成,S为正整数;
获取标准数据中的M个标准表,其中,标准表由数据元组成,M为正整数;
根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联。
4.如权利要求3所述的方法,其特征在于,根据所述现实表与标准表的语义相似度建立所述现实表与标准表的关联,包括:
计算每个所述现实表与M个标准表的语义相似度,获得M个语义相似度的值;
按照从小到大的规律对M个语义相似度值进行排序,筛选出最大语义相似度值对应的标准表;
将所述现实表与最大语义相似度值对应的标准表建立关联。
5.如权利要求1所述的方法,其特征在于,将所述初始图谱数据放入图神经网络模型中进行N次训练,包括:
输入初始图谱数据至图神经网络模型中进行训练,获得训练图谱数据中每个数据节点的关系图谱向量,其中,关系图谱表示数据节点以及与数据节点直接关联的其他数据节点;
将指定所述关系图谱向量输入分类模型,根据所述分类模型获得所述现实数据对应的标准数据;
根据所述现实数据以及所述标准数据确定出训练模型,并根据所述训练模型以及所述训练样本确定出损失值;
将每次的损失值反馈至图神经网络模型并对初始图谱数据进行训练。
6.如权利要求5所述的方法,其特征在于,指定所述关系图谱向量,包括:
从所述关系图谱的向量中筛选出Z个字段的关系图谱向量以及X个数据元的关系图谱向量,其中,Z、X为正整数。
7.如权利要求5所述的方法,其特征在于,将指定所述关系图谱向量输入分类模型,根据所述分类模型获得所述现实数据对应的标准数据之前,包括:
将每个字段的关系图谱向量与所述X个数据元的关系图谱向量进行组合,得到X个向量组;
计算每个向量组的存在概率值,获得X个存在概率值,其中,存在概率值时是字段与数据元有关联关系的概率;
根据存在概率值建立所述字段与数据元的关联关系。
8.如权利要求7所述的方法,其特征在于,根据所述分类模型获得所述现实数据对应的标准数据,包括:
从所述现实数据中获取字段,从所述标准数据中获得数据元;
根据所述字段与所述数据元的关联关系,确定所述现实数据对应的标准数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111246523.0/1.html,转载请声明来源钻瓜专利网。