[发明专利]一种交互式NL2SQL模型的可视理解与诊断方法有效
申请号: | 202010489354.2 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111782764B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 孙国道;叶祺;汤井威;徐超清;梁浩然;徐斌伟;梁荣华 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/34;G06F16/35;G06F40/211;G06F40/284;G06F40/30 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互式 nl2sql 模型 可视 理解 诊断 方法 | ||
1.一种交互式NL2SQL模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:
1)NL2SQL模型数据抽取;将原始数据输入NL2SQL模型中,获得训练后的数据和模型训练中的打分数据;
2)WikiSQL数据特征提取;模型对输入数据的响应被认为是影响模型判断的主要因素,所以首先要对这些模型的输入问句进行特征分析,第一步根据问句的疑问词来进行分类,此外,数据的特征还包括问题的语法是否正常,问题是否包含非英语文本,句子是否包含模糊的问题;所以为了分析这些问题,分析句子的语义信息和句法结构是很重要的;由于WikiSQL数据集是从维基百科词条中派生出来的,而由斯坦福coreNLP工具提供的静态模型训练数据也来自维基百科,因此使用静态模型来提取句子依赖的语法和语义分析;
先利用核函数将数据集的各个维度特征映射到高维核空间,并对数据集的每个维度在高维核空间中进行线性特征选择,从而实现低维中的非线性特征选择;研究了树核函数的相关方法,使用kelp库生成输入问题的树结构,并将其映射到高维特征空间,并利用子树核函数提取输入句子之间的语义相似性特征;
使用子树核函数计算树上的相似度,通过迭代比较三元组和中的所有节点对,从而比较它们的邻域,邻域越接近说明两个句子的结构越相似,子树核函数的计算过程如公式(1)所示;
其中,V是句法树顶点的集合,E是句法树边的数目,是分配从句法树到标签的函数,v和v′都是句法树节点的特征向量,kh是v和v′的加权函数,所以实质上就是迭代地比较G和G′上所有节点v和v′之间的距离,从而得到两个句法树邻域,可以得到句法树之间的相似度;
3)NL2SQL模型的可视分析;通过以上步骤得到模型训练中的打分数据和提取的输入数据特征,通过不同组件对模型的外部数据和模型结果进行探索;分析过程如下:
(3-1)提供初步探索的统计视图
对于数据的展示,采用了环形图作为静态数据的统计视图,首先使用SQLNet模型训练这些数据,生成对应的SQL查询数据,对原始数据和对应的SQL查询数据进行数学统计,并在统计视图上进行展示;
(3-2)提供详细信息和探索的降维投影视图
该视图是基于颜色和纹理叠加的投影,使用MDS投影算法,用户可以通过降维后的可视化表达式发现不同wh-words类别之间的分布以及NL2SQL模型的预测结果,在这个视图中,展示了不同数据的不同降维特性的五种降维表达式,这些特征包括子树核的相似性、模型内部的高维数据、模型各子任务的预测数据以及模型输入数据中疑问词的分布;用户可以通过多视图交互协作来探索具有不同特征维度的模型的输出,由于提取了模型数据的语义特征和内部相关属性,所以在考虑投影降维时显示更多的数据信息,同时避免数据叠加造成的视觉杂乱;
(3-3)展示模型内部得分和原始问句的细节视图
视图分为两个部分,下半部分是平行坐标视图,上半部分是原始问句视图,在平行坐标视图中,每个折线对应降维投影视图中每个数据在模型训练过程中的得分信息和SQL查询的错误信息,包括聚合操作符预测得分、选择列预测得分、where clause的列预测得分,用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列,并深色显示画笔选择的折线,其他的折线是浅灰色的仍然作为背景;原始问句视图中,显示的是被框选的数据的原始问句,问句的颜色代表问句的wh-words类型,问句前面的三角符号代表模型预测结果的正误,用平行坐标视图和原始问句视图展现NL2SQL数据集之间的关联;
(3-4)提供参数选择和过滤的控制面板视图
该视图为用户提供了数据集过滤和特征搜索的所有功能,包括可扩展的导入数据的数量和特定数据集,wh-words标签的选择和过滤,每个类别投影的权重设置,单一类型数据的过滤;在这个视图中,支持用户选择不同的类别对数据进行特征分析;
4)基于数据特征提取的模型的视觉诊断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010489354.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及设备
- 下一篇:一种基于多任务学习的面部活动单元检测方法