[发明专利]基于语义理解的从文本序列到指令序列的在线翻译系统及方法在审
申请号: | 202110453842.2 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113515955A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 张晓芳;欧睿;饶攀军;陈科;马东红;郑元 | 申请(专利权)人: | 太极计算机股份有限公司 |
主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/186;G06F40/30 |
代理公司: | 哈尔滨市晨晟知识产权代理有限公司 23219 | 代理人: | 刘文权 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 理解 文本 序列 指令 在线翻译 系统 方法 | ||
本发明提出基于语义理解的从文本序列到指令序列的在线翻译,尤其涉及研究利用语言预训练模型和深度学习来进行文本序列到指令序列的翻译,属于自然语言处理领域;为解决现有技术中无法将人工文本和json语言进行直接转换以及文本转换过程中复杂语句无法翻译的问题;本发明引入模板生成层,可以根据训练数据中的SQL语句,抽取出SQL模板,让模型可以根据输入问句不同,选择不同的模板,依据模板进而可以划分出不同的SQL子任务,在此基础上生成结构复杂的SQL语句;拓展了填充SQL子语句的方法,可以生成复杂的SQL语句;并且不需要额外的编码器和解码器,除此之外,也不需要引入额外的中间表示层,这些特点降低了模型复杂度,并且能提高模型泛化能力。
技术领域
本发明涉及从文本序列到指令序列的在线翻译,尤其涉及研究利用语言预训练模型和深度学习来进行文本序列到指令序列的翻译,属于自然语言处理领域。
背景技术
在传统的以业务流为基础的软件中,用户会根据业务类型,调用业务对应的程序接口,完成业务需求。但是随着业务需求的多样化,业务对应的程序接口也会变得愈加繁杂,这时候用户为完成一项业务所需的操作步骤就会增多,这会导致工作效率下降和增加出错概率。
业务需求基本上都可以映射为对数据库的增,删,改,查;指令与SQL语句类似,可将指令转换成类似于SQL语句的表达方式,进而用Text2SQL和NL2SQL相关技术完成自然语言到指令的转换。
在Text2SQL这个问题上,主要存在三个挑战:第一个是信息融合,如何将问句与数据库表进行联合表示;第二个是失配,失配指的是自然语言表示的意图与SQL语句细节之间的不匹配,其主要原因是SQL语句是被设计用于关系数据库的高效查询,而不是用于表达语义信息;第三个是泛化问题,泛化问题是指能否针对未知表(out-of-domain schema)生成正确SQL语句,其中未知表指的是未在模型训练数据集中出现的表。
针对这三个技术问题,并且结合近年来有关Text2SQL的工作,改进了以往的模型,并提出一个模型,称为混合排序填充网络(Hybrid Ranking Filling Network,H-Net)。模型可以概括为以下五步,第一步,利用语言预训练模型BERT对一个列与问句进行联合编码,用以获取列与问句之间的关系;第二步,选择SQL模板,根据SQL模板,将生成完整的SQL语句任务划分为若干个生成子SQL语句任务;第三步,计算列与问句在不同子SQL语句中的相似度,并对计算的结果进行排序;第四步,针对不同的子SQL语句的生成任务,利用排序结果和其对应的解码方式进行解码,生成子SQL语句。第五步,利用子SQL语句填充SQL模板,生成完整的SQL语句。
混合排序填充模型与传统端到端模型不同,混合排序填充模型不需要额外的编码器和解码器,除此之外,也不需要引入额外的中间表示层,这些特点降低了模型复杂度,并且能提高模型泛化能力。为了验证提出方法的有效性,构建了文本序列到指令序列的数据集,在这一数据集上的实验结果显示了本方法提出的H-NET方法的有效性。
发明内容
为解决现有技术中无法将人工文本和json语言进行直接转换以及文本转换过程中复杂语句无法翻译的问题,本发明提出基于语义理解的从文本序列到指令序列的在线翻译系统、方法及存储介质,方案如下:
方案一:基于语义理解的文本序列到指令序列的在线翻译系统,该系统包括JSON序列转换、模板生成,在线翻译和SQL后处理四个子系统;通过JSON到SQL语句转换和模板抽取完成数据集的构建;通过对文本序列进行编码、在线翻译和SQL语句剪枝完成基于语义理解的从文本序列到指令序列的在线翻译过程;
其中JSON序列转换子系统包括构建SQL语句模块和构建数据表模块,负责将JSON格式的指令序列转换成SQL语句,并且根据指令序列构建数据表,用于将SQL初始数据进行整合;
模板生成子系统包括模板聚类模块,模板抽取模块,用于指导翻译系统生成指令序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太极计算机股份有限公司,未经太极计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110453842.2/2.html,转载请声明来源钻瓜专利网。