[发明专利]一种针对具体软件历史代码库的词库自动构建方法有效

申请号：	201510345253.7	申请日：	2015-06-19
公开（公告）号：	CN104991909B	公开（公告）日：	2018-02-27
发明（设计）人：	孙小兵;孙伟松;李斌;朱俊武;杨辉	申请（专利权）人：	扬州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京钟山专利代理有限公司32252	代理人：	戴朝荣
地址：	225009 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种针对具体软件历史代码库的词库自动构建方法。本发明的方法是使用知识库构建的想法。对本软件系统所有历史代码库中做一个精炼，提炼出一个属于本软件系统的词库(知识库)，以此获得高效的了解一个软件系统的代码构建过程。主要用于代码搜索过程中更准确地进行代码搜索。本发明有利于软件维护人员以及系统开发人员了解本系统在过去版本中使用的单词或词组，以及使用单词之间存在的一定的关系，更有效的开发与维护本系统，促进软件代码中词语使用的一致性。
搜索关键词：	一种针对具体软件历史代码词库自动构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种针对具体软件历史代码库的词库自动构建方法，其特征在于如下步骤：步骤1)提取出软件系统为java语言开发的软件系统的历史版本库中的代码和注释生成独立的文档语料库，并将该语料库分为纯代码文档库和纯注释文档库；步骤2)对语料库中的纯代码文档进行预处理，包括托肯化、去停用词，提取元素，得到单词和词组以及它们在代码中的支持度；在托肯化的过程中，利用java中的“<子类名>+extends+<父类名>”的语法，基于中间单词“extends”分析出类与类之间的的继承关系，利用java中的“<类名>+implements+<接口>”的语法,基于中间单词“implements”分析出类与接口的关系，得到纯代码语料库中的词、词组关系库；步骤3)对纯注释文档进行词性标注，然后进行预处理，包括托肯化、去停用词，提取出纯代码文档中的单词或词组以及它们在纯注释中的支持度，利用注释匹配分析出缩略关系，得到纯注释中的词、词组关系库；步骤4)将纯代码语料库中词、词组关系库与纯注释语料库中词、词组关系库进行整合，去除相同或多余的单词和词组，得到整合后的词、词组关系库；步骤5)先将步骤4）生成的词、词组关系库中的词组关系提取出来，得到词组关系库；其次对词、词组关系进行拆分、词干化得到纯单词文档；再对得到的单词进行词性标注，分析出词组关系、同义关系、缩略关系、得到单词关系库；最后将词组关系库和单词关系库整理出本系统的完整系统词库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于扬州大学，未经扬州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510345253.7/，转载请声明来源钻瓜专利网。

上一篇：一种通用的新型粉状光饰光亮剂及其制作方法
下一篇：一种防腐耐油涂料

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对具体软件历史代码库的词库自动构建方法有效

专利文献下载