[发明专利]表格模式解析和序列掩码的语言模型预训练方法及系统有效
申请号: | 202110210906.6 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112559556B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 徐叶琛 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F40/30;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 311200 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 模式 解析 序列 掩码 语言 模型 训练 方法 系统 | ||
1.一种表格模式解析和序列掩码的语言模型预训练方法,其特征在于,包括如下步骤:
S1:给定自然语言问句、关联表格和目标SQL序列,从关联表格的每一列中分别查找和自然语言问句重叠度最高的单元值;
S2:按“自然语言问句、关联表格中的列名、列类型、与自然语言问句重叠度最高的单元值”的形式合成一个片段,按照顺序依次将关联表格中的各列拼接为长序列,所述长序列的开始位置加入起始标记符,且多个片段之间用分隔符相隔;
S3:对长序列中的自然语言问句和关联表格中的单元值进行随机掩码处理,各随机抽取10%的字符采用掩码符替代;
S4:建立语言模型,以步骤S3中经过随机掩码处理后的长序列作为语言模型的预训练数据集,根据掩码序列预测任务、表格模式解析任务、条件数量预测任务联合训练语言模型,得到TCBERT模型;具体为:对步骤S3中经过随机掩码处理后的长序列进行嵌入向量表示后作为语言模型的输入,根据语言模型的输出序列得到掩码符位置对应的预测字符、每一个列名的预测概率以及起始标记符;所述的预测概率包括列名是否出现在目标SQL序列中、以及在目标SQL序列中触发的SQL操作;所述的起始标记符用于预测目标SQL序列中的条件数量;
针对掩码序列预测任务,将预测字符和真实字符之间的交叉熵函数值作为掩码序列预测任务的损失值;
针对表格模式解析任务,根据预测概率与目标SQL序列计算交叉熵损失,将关联表格中所有列的损失之和作为表格模式解析任务的损失值;
针对条件数量预测任务,根据起始标记符的特征来预测目标SQL序列中的条件数量,将预测条件数量与目标SQL序列中的真实条件数量之间的交叉熵函数值作为条件数量预测任务的损失值;
在联合预训练过程中,三个任务的损失函数之和作为模型预训练总损失,利用梯度下降算法优化目标函数;预训练完毕后,保存模型权重参数;
S5:针对Text2SQL任务,将预训练好的TCBERT模型作为Text2SQL模型中的初始化编码器,进行自然语言问句和数据库模式的初始化编码。
2.如权利要求1所述的表格模式解析和序列掩码的语言模型预训练方法,其特征在于,所述的自然语言问句为包含一系列字符的序列Q=q1,……,q|Q|,qi表示自然语言问句中的第i个字符,|Q|表示自然语言问句中的字符数;所述的关联表格包含列名、列类型和单元值,列名表示为{C=c1,……,c|C|},ci表示关联表格中的第i列的列名,|C|为关联表格中的列数,每一个列名由一个或多个字符组成,且每一个列名对应的单元值表示为vi=vi_1,……,vi_|vi|,vi_k表示ci对应的第k个单元值,|vi|表示ci对应的单元值数目;列类型包括文本和数值两种类型。
3.如权利要求2所述的表格模式解析和序列掩码的语言模型预训练方法,其特征在于,步骤S2中的长序列表示为X=“[XLS],Q,[SEP],c1,c1_type,v1,[SEP],……,c|C|,c|C|_type,v|C|,[SEP]”;其中[XLS]表示起始标记符,Q表示自然语言问句,[SEP]表示片段之间的分隔符,ci、ci_type、以及vi分别表示关联表格中的第i列的列名、列类型、以及与自然语言问句重叠度最高的单元值。
4.如权利要求1所述的表格模式解析和序列掩码的语言模型预训练方法,其特征在于,步骤S4建立的语言模型为12层Transformer网络结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110210906.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络会议文件共享方法及系统
- 下一篇:一种基于背景抑制的OCR识别方法