[发明专利]一种数据处理方法、装置、设备及介质在审
申请号: | 202110645542.4 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113420077A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 朱明浩;陈立力;周明伟;操涛涛;刘军营 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张洁 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取待处理的第一元数据,其中,所述第一元数据为数据表的表项中的文本;
若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据,其中,所述第二元数据为标准的数据,所述生成模型是基于样本数据集进行训练得到的,所述样本数据集包括多个第一样本数据,以及每个第一样本数据对应的第一样本标准元数据。
2.如权利要求1所述的方法,其特征在于,若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据,包括:
所述第一元数据包括第一数据元,若所述第一数据元与标准元数据中的标准元数据元之间的匹配度小于第一预设阈值,则将所述第一数据元输入已训练的生成模型,获得标准的第二数据元,其中,所述第二元数据包括所述第二数据元;和/或,
所述第一元数据包括用于限定所述第一数据元的第一限定文本,若所述第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将所述第一限定文本输入已训练的生成模型,获得标准的第二限定文本,其中,所述第二元数据包括所述第二限定文本。
3.如权利要求2所述的方法,其特征在于,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本;在若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据之前,所述方法还包括:
分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,并确定所述第一参考向量与所述第一向量之间的相关度,将所述相关度作为所述第一数据元与标准元数据之间的匹配度;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,并确定所述第二参考向量与所述第二向量之间的相关度,将所述相关度作为所述第一限定文本与标准元数据之间的匹配度。
4.如权利要求3所述的方法,其特征在于,分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,包括:
将所述标准数据元输入第一匹配子网络,获得第一参考向量,将所述第一数据元输入第二匹配子网络,获得第一向量;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,包括:
将所述标准限定文本输入第一匹配子网络,获得第二参考向量,将所述第一数据元输入第二匹配子网络,获得第二向量;
其中,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行联合训练得到的,其中,每个样本对包括第二样本元数据和第二样本标准元数据,所述第二样本元数据中第二样本数据元与所述第二样本标准数据元中的第二样本标准数据元之间的第一匹配度,以及所述第二样本元数据中第二样本限定文本与所述第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。
5.如权利要求4所述的方法,其特征在于,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行多次迭代训练得到,其中一次迭代训练包括以下步骤:
在所述多个样本对中选取第一样本对;
将所述第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络,获得第三参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第三向量;
确定所述第三参考向量和所述第三向量之间的第三匹配度;
基于所述第三匹配度与所述第一匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数;
将所述第一样本对中的第二样本标准元数据中的第二样本限定文本输入第一匹配子网络,获得第四参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第四向量;
确定所述第四参考向量和所述第四向量之间的第四匹配度;
基于所述第四匹配度与所述第二匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110645542.4/1.html,转载请声明来源钻瓜专利网。