[发明专利]注释识别方法、装置、设备及计算机可读存储介质在审
申请号: | 202011444403.7 | 申请日: | 2020-12-08 |
公开(公告)号: | CN114610382A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 蔡敦波 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F8/74 | 分类号: | G06F8/74;G06F8/73;G06F40/289 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 侯艳华;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注释 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种注释识别方法,其特征在于,所述方法包括:
对获取的待识别的程序代码进行分割处理,得到至少一个文字行,所述程序代码包括代码和注释;
根据所述文字行的行首字符确定所述文字行的行开始符,并根据所述文字行的行末字符确定所述文字行的行结束符;
基于所述行开始符和所述行结束符,确定所述程序代码中的注释标识;
基于所述注释标识对所述程序代码进行注释识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对获取的待识别的程序代码进行分割处理,得到至少一个文字行,包括:
获取待识别的程序代码和预设的行结束标识;
根据所述行结束标识对所述程序代码进行分割处理,得到多个分割行;
从所述多个分割行中删除空白行,得到至少一个文字行。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文字行的行首字符确定所述文字行的行开始符,包括:
提取各个文字行中的第一个非空白字符;
当确定当前文字行的第一个非空白字符不为英文字符时,将当前文字行的第一个非空白字符确定为当前文字行的行开始符;
当确定当前文字行的第一个非空白字符为英文字符时,将空字符确定为当前文字行的行开始符。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文字行的行末字符确定所述文字行的行结束符,包括:
提取各个文字行中的最后一个非空白字符;
当确定当前文字行的最后一个非空白字符不为英文字符、且不为中文字符时,将当前文字行的最后一个非空白字符确定为当前文字行的行结束符;
当确定当前文字行的最后一个非空白字符为英文字符或中文字符,且当前文字行存在行开始符时,将空字符确定为当前文字行的行结束符;
当确定当前文字行的最后一个非空白字符为英文字符或中文字符,且当前文字行不存在行开始符时,将当前文字行的下一个文字行的行结束符确定为当前文字行的行结束符。
5.根据权利要求1所述的方法,其特征在于,所述基于所述行开始符和所述行结束符,确定所述程序代码中的注释标识,包括:
基于所述文字行包括的字符,确定所述文字行中包括的目标分词的个数,所述目标分词的词性不为名词;
基于各个文字行的行开始符和目标分词的个数,确定注释开始标识,并基于各个文字行的行结束符和目标分词的个数,确定注释结束标识;
将所述注释开始标识和所述注释结束标识确定为注释标识。
6.根据权利要求5所述的方法,其特征在于,所述基于所述文字行包括的字符,确定所述文字行中包括的目标分词的个数之前,所述方法还包括:
按照预设划分规则对当前文字行中包括的字符进行分词处理,得到当前文字行的各个分词;
获取所述各个分词的词性。
7.根据权利要求5所述的方法,其特征在于,所述基于各个文字行的行开始符和目标分词的个数,确定注释开始标识,包括:
基于各个文字行的目标分词个数和各个文字行的行开始符,确定不为空字符的各个行开始符的总支持数,所述行开始符的总支持数为所述行开始符对应的各个文字行中包括的目标分词个数的总和;
确定各个行开始符对应的目标文字行的总行数,所述目标文字行为只包括名词分词的文字行;
计算所述不为空字符的各个行开始符的总支持数与对应的总行数的差值,得到不为空字符的各个行开始符的开始支持数;
将最大开始支持数对应的行开始符确定为注释开始标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011444403.7/1.html,转载请声明来源钻瓜专利网。