[发明专利]一种针对具体软件历史代码库的词库自动构建方法有效

专利信息
申请号: 201510345253.7 申请日: 2015-06-19
公开(公告)号: CN104991909B 公开(公告)日: 2018-02-27
发明(设计)人: 孙小兵;孙伟松;李斌;朱俊武;杨辉 申请(专利权)人: 扬州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京钟山专利代理有限公司32252 代理人: 戴朝荣
地址: 225009 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种针对具体软件历史代码库的词库自动构建方法。本发明的方法是使用知识库构建的想法。对本软件系统所有历史代码库中做一个精炼,提炼出一个属于本软件系统的词库(知识库),以此获得高效的了解一个软件系统的代码构建过程。主要用于代码搜索过程中更准确地进行代码搜索。本发明有利于软件维护人员以及系统开发人员了解本系统在过去版本中使用的单词或词组,以及使用单词之间存在的一定的关系,更有效的开发与维护本系统,促进软件代码中词语使用的一致性。
搜索关键词: 一种 针对 具体 软件 历史 代码 词库 自动 构建 方法
【主权项】:
一种针对具体软件历史代码库的词库自动构建方法,其特征在于如下步骤:步骤1)提取出软件系统为java语言开发的软件系统的历史版本库中的代码和注释生成独立的文档语料库,并将该语料库分为纯代码文档库和纯注释文档库;步骤2)对语料库中的纯代码文档进行预处理,包括托肯化、去停用词,提取元素,得到单词和词组以及它们在代码中的支持度;在托肯化的过程中,利用java中的“<子类名>+extends+<父类名>”的语法,基于中间单词“extends”分析出类与类之间的的继承关系,利用java中的“<类名>+implements+<接口>”的语法,基于中间单词“implements”分析出类与接口的关系,得到纯代码语料库中的词、词组关系库;步骤3)对纯注释文档进行词性标注,然后进行预处理,包括托肯化、去停用词,提取出纯代码文档中的单词或词组以及它们在纯注释中的支持度,利用注释匹配分析出缩略关系,得到纯注释中的词、词组关系库;步骤4)将纯代码语料库中词、词组关系库与纯注释语料库中词、词组关系库进行整合,去除相同或多余的单词和词组,得到整合后的词、词组关系库;步骤5)先将步骤4)生成的词、词组关系库中的词组关系提取出来,得到词组关系库;其次对词、词组关系进行拆分、词干化得到纯单词文档;再对得到的单词进行词性标注,分析出词组关系、同义关系、缩略关系、得到单词关系库;最后将词组关系库和单词关系库整理出本系统的完整系统词库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510345253.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top