[发明专利]代码文本处理方法及相关产品在审

专利信息
申请号: 201911290957.3 申请日: 2019-12-12
公开(公告)号: CN111126031A 公开(公告)日: 2020-05-08
发明(设计)人: 于俊;连顺;李雅洁;谭昶;谢榭;丁辉 申请(专利权)人: 南京谦萃智能科技服务有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F8/75
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 熊永强
地址: 210000 江苏省南京市建邺区江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 代码 文本 处理 方法 相关 产品
【说明书】:

本申请实施例公开了一种代码文本处理方法及相关产品,方法包括:首先获取两个第一代码文本,之后,确定两个第一代码文本中每个第一代码文本的第一文本特征,第一文本特征用于表征文本的结构特征,结构特征用于反映文本的组成成分,然后,将两个第一代码文本导入预先训练好的文本特征提取模型,得到两个第一代码文本中每个第一代码文本的第二文本特征,第二文本特征用于表征文本的语义特征,最后,根据两个第一代码文本的第一文本特征和第二文本特征,得到两个第一代码文本对应的目标相似度。本申请实施例有利于提升代码文本相似性计算的精准度。

技术领域

本申请涉及电子技术领域,具体涉及一种代码文本处理方法及相关产品。

背景技术

随着科技的发展,电子文档带来的抄袭技术门槛低,所以代码文本抄袭现象很普遍,由于编程类作业大多数以电子文档的方式呈现,通过开发工具和电子文档编辑器可以很容易地复制和修改电子文档,使得抄袭代码外观与原来的代码不相同,而程序结构以及运行结果却与源代码完全一样,人们通过更改注释、变量名、方法名、类名,或者改变代码块顺序,改变表达式中操作符和操作数顺序,增加或删除冗余语句和变量就可以形成新的代码文本,为了解决人工很难直接发现抄袭行为,因此,计算代码文本的相似度尤为重要。

现有技术中,一般采用以下几种方法计算代码文本之间的相似度,第一种是根据软件复杂性度量模型,第二种是采取基于属性计数的检测技术评价作业相似度,使用编译优化和反汇编技术将源代码转变为目标代码,然后通过删除和替换汇编指令中对程序特征影响不大的元素,使用决策函数计算程序代码的相似度,第三种是使用基于结构度量方法进行相似度的计算,第四种是使用最长公共子序列算法和编辑距离来计算作业相似度,然而,现有的相似度检测技术,在实际检测中,会受到一些因素(如大量重复的变量声明语句及抄袭者对源代码的改动)的干扰,导致相似度的计算不精确。

发明内容

本申请实施例提供了一种代码文本处理方法及相关产品,以期提升代码文本相似检测的精准度。

第一方面,本申请实施例提供一种代码文本处理方法,应用于电子设备,所述方法包括:

获取两个第一代码文本;

确定所述两个第一代码文本中每个第一代码文本的第一文本特征,所述第一文本特征用于表征文本的结构特征,所述结构特征用于反映文本的组成成分;

将所述两个第一代码文本导入预先训练好的文本特征提取模型,得到所述两个第一代码文本中每个第一代码文本的第二文本特征,所述第二文本特征用于表征文本的语义特征;

根据所述两个第一代码文本的所述第一文本特征和所述第二文本特征,得到所述两个第一代码文本对应的目标相似度。

第二方面,本申请实施例提供一种代码文本处理装置,应用于电子设备,所述装置包括:获取模块和处理模块,其中,

所述获取模块,用于获取两个第一代码文本;

所述处理模块,用于确定所述两个第一代码文本中每个第一代码文本的第一文本特征,所述第一文本特征用于表征文本的结构特征,所述结构特征用于反映文本的组成成分;

所述处理模块,还用于将所述两个第一代码文本导入预先训练好的文本特征提取模型,得到所述两个第一代码文本中每个第一代码文本的第二文本特征,所述第二文本特征用于表征文本的语义特征;

所述处理模块,还用于根据所述两个第一代码文本的所述第一文本特征和所述第二文本特征,得到所述两个第一代码文本对应的目标相似度。

第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京谦萃智能科技服务有限公司,未经南京谦萃智能科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911290957.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top