[发明专利]一种基于语义信息增强的Bash代码注释生成方法在审

专利信息
申请号: 202211585727.1 申请日: 2022-12-09
公开(公告)号: CN115794218A 公开(公告)日: 2023-03-14
发明(设计)人: 鞠小林;沈逸恒;陈翔;沈昊;陈森博;邵浩然 申请(专利权)人: 南通大学
主分类号: G06F8/73 分类号: G06F8/73;G06F40/166;G06N3/0442
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 张俊俊
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 信息 增强 bash 代码 注释 生成 方法
【说明书】:

发明提供了一种基于语义信息增强的Bash代码注释生成方法,属于计算机领域。解决了Bash注释生成任务中数据集较小和不能全部利用CodeBERT输出的所有特征信息的问题。其技术方案为:包括以下步骤:S1:在语料库生成的嵌入层使用对抗训练,生成对抗样本以增强语义信息;S2:使用原语料库生成的词嵌入和对抗样本对CodeBERT进行微调,输出12层表征信息;S3:使用Bi‑LSTM+注意力机制聚合12层表征信息,生成融合信息;S4:使用解码器进行解码并输出Bash注释。本发明的有益效果为:本发明提出的模型可以捕获和利用更多的语义表征信息,从而提高注释生成的质量和可靠性。

技术领域

本发明涉及计算机技术领域,涉及一种基于语义信息增强的Bash代码注释生成方法。

背景技术

Shell是开发人员和Linux操作系统之间进行交互的接口。当前Linux操作系统支持不同类型的shell,其中Bash是Linux默认的shell命令语言,并且在程序开发过程中应用较为广泛。和传统的编程语言C语言、Java语言、Python语言等相比,Bash语言的使用场景较少,但是Bash语言在Linux系统的开发和维护过程中的作用仍然不可忽视。除此之外,Bash语言还具有应用领域广泛以及语言灵活等特点。

对于不熟悉Bash语言的开发人员来说,使用Bash语言在完成开发和维护任务时仍具有一定困难。截止到目前为止,在开发人员问答网站Stack Overflow上共有89,195条与“shell”关键词相关的问答帖子,有148,534条与“bash”关键词相关的问答帖子,可以看出对于Bash语言不熟悉的开发人员来说,在理解Bash代码的时候具有一定的挑战性。因此针对Bash代码亟需可以生成相关代码注释的自动方法,可以协助开发人员理解Bash代码的含义。

近年来,预训练模型被广泛应用于注释生成领域,先前的一些研究通常只使用BERT输出的最后一层的第一个token位置(`[CLS]')来表示整个句子,这种设置可能会丢失其它层捕获的宝贵信息。如何解决上述技术问题成为本发明面临的课题。

发明内容

本发明的目的在于提供一种基于信息增强的Bash代码注释生成方法,该方法可以根据Bash代码自动生成注释,解决技术人员在开发和维护过程中Bash代码难以理解的问题,提高Bash代码的可读性和可理解性。

本发明的思想为:本发明提出基于信息增强的Bash代码注释生成方法,它包括两阶段信息增强策略,在第一阶段,Bash代码和相应的注释作为输入,通过嵌入层的对抗训练来增强信息;在第二阶段,使用Bi-LSTM来充分利用从每一层提取的表征信息;然后,使用注意力机制根据代码注释生成任务的重要性为每一层分配权重,最后,解码器模块使用Attention层输出的融合向量来生成相应的Bash注释。

为了实现上述发明目的,本发明采用技术方案具体为:一种基于信息增强的Bash代码注释生成方法,其中,包括以下步骤:

(1)将NL2Bash研究中共享的数据集和NLC2CMD竞赛共享的数据集合并,再删除重复的样本,最终构建了一个包含10,592个样本的高质量数据集E,设定数据集的格式为代码,注释,具体预处理操作包括如下步骤:

(1-1)首先合并NL2Bash研究和NLC2CMD竞赛共享的数据;

(1-2)删除注释少于4个单词的代码,注释对,因为不利于BLEU值评估;

(1-3)删除数据集中的重复数据;

(2)对构建的数据集随机划分成训练集、验证集和测试集,同时构建预训练模型CodeBERT,具体包括如下步骤:

(2-1)对于步骤(1)得到的数据集进行划分,按照80%:10%:10%(训练:测试:评估)的比例进行随机划分;

(2-2)构建预训练模型CodeBERT;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211585727.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top