[发明专利]注释识别方法、装置、设备及计算机可读存储介质在审
申请号: | 202011444403.7 | 申请日: | 2020-12-08 |
公开(公告)号: | CN114610382A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 蔡敦波 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F8/74 | 分类号: | G06F8/74;G06F8/73;G06F40/289 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 侯艳华;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注释 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
本申请提供一种注释识别方法、装置、设备及计算机可读存储介质,所述方法包括:对获取的待识别的程序代码进行分割处理,得到至少一个文字行,所述程序代码包括代码和注释;根据所述文字行的行首字符确定所述文字行的行开始符,并根据所述文字行的行末字符确定所述文字行的行结束符;基于所述行开始符和所述行结束符,确定所述程序代码中的注释标识;基于所述注释标识对所述程序代码进行注释识别,得到识别结果。本申请能够在不预知具体编程语言的前提下,实现对程序代码中的注释进行识别,不依赖具体编程语言,具有通用性,能够提高对无法预知具体编程语言的注释识别的准确率。
技术领域
本申请涉及计算机编程技术领域,涉及但不限于一种注释识别方法、装置、设备及计算机可读存储介质。
背景技术
软件代码通常由两部分组成:代码和注释。其中,代码为符合程序设计语言专门语法规范的字符串,可经编译、解释等工具转换,在计算机上执行,表达了软件的业务逻辑怎样实现的过程。注释为符合人类自然语言语法的字符串,一般存在于代码文件的头部、函数头部、程序块内部等,用于解释业务逻辑实现的思路、原因等,在程序执行过程中不起作用。
软件代码中注释的提取,对于分析软件开发过程质量、识别注释与代码实现的不一致、分析注释中的同一话题与多处代码的关系等应用具有重要价值,相关技术中的注释识别方法,针对不同的编程语言,需要设计不同的方案实现,不具备通用性,尤其对于采用大量不同编程语言开发的、存在动态升级变更的软件项目,识别能力不足,而且对于书写不规范的注释可能发生误判,导致注释识别准确率低。
发明内容
有鉴于此,本申请提供一种注释识别方法、装置、设备及计算机可读存储介质,至少解决在无法预知具体编程语言时,注释识别准确率低的问题。
本申请实施例的技术方案是这样实现的:
本申请的至少一个实施例提供了一种注释识别方法,所述方法包括:
对获取的待识别的程序代码进行分割处理,得到至少一个文字行,所述程序代码包括代码和注释;
根据所述文字行的行首字符确定所述文字行的行开始符,并根据所述文字行的行末字符确定所述文字行的行结束符;
基于所述行开始符和所述行结束符,确定所述程序代码中的注释标识;
基于所述注释标识对所述程序代码进行注释识别,得到识别结果。
此外,根据本申请的至少一个实施例,所述对获取的待识别的程序代码进行分割处理,得到至少一个文字行,包括:
获取待识别的程序代码和预设的行结束标识;
根据所述行结束标识对所述程序代码进行分割处理,得到多个分割行;
从所述多个分割行中删除空白行,得到至少一个文字行,所述空白行为只包含空白字符的分割行。
此外,根据本申请的至少一个实施例,所述根据所述文字行的行首字符确定所述文字行的行开始符,包括:
提取各个文字行中的第一个非空白字符;
当确定当前文字行的第一个非空白字符不为英文字符时,将当前文字行的第一个非空白字符确定为当前文字行的行开始符;
当确定当前文字行的第一个非空白字符为英文字符时,将空字符确定为当前文字行的行开始符。
此外,根据本申请的至少一个实施例,所述根据所述文字行的行末字符确定所述文字行的行结束符,包括:
提取各个文字行中的最后一个非空白字符;
当确定当前文字行的最后一个非空白字符不为英文字符、且不为中文字符时,将当前文字行的最后一个非空白字符确定为当前文字行的行结束符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011444403.7/2.html,转载请声明来源钻瓜专利网。