[发明专利]基于语义理解的从文本序列到指令序列的在线翻译系统及方法在审
申请号: | 202110453842.2 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113515955A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 张晓芳;欧睿;饶攀军;陈科;马东红;郑元 | 申请(专利权)人: | 太极计算机股份有限公司 |
主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/186;G06F40/30 |
代理公司: | 哈尔滨市晨晟知识产权代理有限公司 23219 | 代理人: | 刘文权 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 理解 文本 序列 指令 在线翻译 系统 方法 | ||
1.基于语义理解的文本序列到指令序列的在线翻译系统,其特征在于:该系统包括JSON序列转换、模板生成,在线翻译和SQL后处理四个子系统;通过JSON到SQL语句转换和模板抽取完成数据集的构建;通过对文本序列进行编码、在线翻译和SQL语句剪枝完成基于语义理解的从文本序列到指令序列的在线翻译过程;
其中JSON序列转换子系统包括构建SQL语句模块和构建数据表模块,负责将JSON格式的指令序列转换成SQL语句,并且根据指令序列构建数据表,用于将SQL初始数据进行整合;
模板生成子系统包括模板聚类模块,模板抽取模块,用于指导翻译系统生成指令序列;
在线翻译子系统包括训练与预测模块,用于完成从文本序列到指令序列的在线翻译过程;
SQL后处理子系统包括执行指导模块,SQL语句剪枝模块和指令还原模块,负责去除SQL语句中冗余部分和SQL语句综合处理,并将SQL语句还原成JSON格式的指令序列。
2.基于语义理解的从文本序列到指令序列的在线翻译方法,是根据权利要求1所述的系统为基础而实现的,其特征在于:该方法利用所述模板生成子系统,通过模板抽取、SQL语句输入表示以及模型建立,定义翻译规则并初始化语句数据;
所述的语句数据包括两部分,其中一部分包含SQL引用数据集中的列的类型、表名、列名、表注释、列注释和连接操作;另一部分引入问句切分成的词序列。
3.根据权利要求2所述的基于语义理解的从文本序列到指令序列的在线翻译方法,其特征在于:针对在线翻译过程,所述拓展SQL子语句子系统和所述指令序列转换子系统为方法承载的核心系统构件,该方法的具体步骤如下:
步骤一,对输入数据进行编码;
步骤二,通过定义翻译规则建立SQL模型;
步骤三,针对SQL列的计算与结构的子任务划分,完成初始化模板的过程;
步骤四,通过步骤一至三的初始化过程,进而完成所述SQL模型的训练与预测;
步骤五,结合算法将各子句进行指导,以及完成语句剪枝;
步骤六,结合SQL数据库中的SQL数据集完成指令序列转换;
步骤七,通过JSON和SQL数据整合,完成从文本序列到指令序列的在线翻译过程。
4.根据权利要求3所述的基于语义理解的从文本序列到指令序列的在线翻译方法,其特征在于:在步骤三中,关于列的计算所述的子任务划分,包括列独立任务、列相关任务和结构相关任务;
其中所述列独立任务指预测选择子句的所涉及的列、条件子句中所涉及的列、排序子句中所涉及的列和完整SQL语句中所涉及的列;
所述列相关任务指预测函数运算符、条件操作符、条件对应的值和条件对应值得个数;
所述结构相关任务包括预测集合运算符和连接运算符。
5.根据权利要求4所述的基于语义理解的从文本序列到指令序列的在线翻译方法,其特征在于:所述的列计算,具体步骤细化为:
步骤三一,分析列与问句相似度进行计算,计算列与问句在不同SQL子句中的相似度,进而判断列在对应的SQL子句中是否出现;
步骤三二,处理列独立任务,具体指对于列无关任务,预测不同SQL子句中所涉及的列从而独立筛选列;
步骤三三,处理列相关任务,具体指预测选择子句中的列对应的函数运算符、条件子句中的列对应的条件操作符、条件子句中的列对应的值;
步骤三四,处理结构相关任务,具体指预测SQL语句的集合运算符和连接运算符,完成结构相关任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太极计算机股份有限公司,未经太极计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110453842.2/1.html,转载请声明来源钻瓜专利网。