[发明专利]一种基于抽象语法树的程序理解方法及系统在审
申请号: | 202110096711.3 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112835585A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 吕晨;姜雪;高学剑;高曰秀;马正;李季;吕蕾;刘弘 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 抽象 语法 程序 理解 方法 系统 | ||
1.一种基于抽象语法树的程序理解方法,其特征在于,包括:
获取程序代码;
将程序代码生成语法树;
提取每个语法树根结点到终端结点的路径;
根据屏蔽策略遮蔽路径中部分结点后形成路径表示向量;
根据屏蔽策略遮蔽程序代码中部分节点后形成词向量序列;
将路径表示向量和词向量序列输入程序理解模型中完成预训练任务,获取训练好的用于程序理解的程序理解模型。
2.如权利要求1所述的一种基于抽象语法树的程序理解方法,其特征在于,程序理解模型采用Transformer的编解码器结构,去掉解码器端的位置编码,并添加二分类器进行预测,其中编码器读入AST路径的集合并生成AST的表示,解码器利用该表示推测出AST对应的代码片段。
3.如权利要求2所述的一种基于抽象语法树的程序理解方法,其特征在于,对解码器的输出处理为:使用“INDENT”和“DEDENT”表示程序代码的开始和结束;使用“NEWLINE”代表程序代码换行;使用“_”代表程序代码中的空格;删除程序代码中的注释。
4.如权利要求2所述的一种基于抽象语法树的程序理解方法,其特征在于,程序理解模型训练时,训练损失为二分类交叉熵损失与多分类交叉熵之和。
5.如权利要求1所述的一种基于抽象语法树的程序理解方法,其特征在于,每个路径为一个结点序列。
6.如权利要求1所述的一种基于抽象语法树的程序理解方法,其特征在于,根据屏蔽策略遮蔽路径中部分节点,将路径中各结点表示为向量,对向量进行拼接后,形成路径表示向量。
7.如权利要求6所述的一种基于抽象语法树的程序理解方法,其特征在于,根据屏蔽策略遮蔽程序代码中部分节点后形成词向量序列的具体过程为:
将程序代码中与路径中被遮蔽的结点对应的结点保留;
将程序代码中其余结点遮蔽;
获取程序代码中各结点的词向量,形成词向量序列。
8.一种基于抽象语法树的程序理解系统,其特征在于,包括:
一种基于抽象语法树的程序理解系统,包括:
程序代码获取模块,用于获取程序代码;
语法树生成模块,用于将程序代码生成语法树;
路径提取模块,用于提取每个语法树根结点到终端结点的路径;
路径表示向量生成模块,用于根据屏蔽策略遮蔽路径中部分结点后形成路径表示向量;
词向量序列生成模块,用于根据屏蔽策略遮蔽程序代码中部分节点后形成词向量序列;
模型训练模块,用于将路径表示向量和词向量序列输入程序理解模型中进行预训练,获取训练好的用于程序理解的程序理解模型。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的一种基于抽象语法树的程序理解方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的一种基于抽象语法树的程序理解方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110096711.3/1.html,转载请声明来源钻瓜专利网。