[发明专利]一种软件缺陷报告分流方法及其系统有效
申请号: | 200910091681.6 | 申请日: | 2009-08-28 |
公开(公告)号: | CN101639829A | 公开(公告)日: | 2010-02-03 |
发明(设计)人: | 李明树;林中鹏;舒风笛;杨叶;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F9/44;G06N1/00 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) | 代理人: | 俞达成 |
地址: | 100190北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 缺陷 报告 分流 方法 及其 系统 | ||
1.一种软件缺陷报告分流方法,其步骤为:
1)从缺陷报告数据库中提取缺陷报告的报告标题、缺陷描述和重现步骤信息;
2)将提取的每个缺陷报告中的上述信息建立成该报告的自然语言形式文本;
3)将每个自然语言形式文本转化成一文本向量;其具体方法为:将每个自然语言形式文本首先经过分词器转化为一个个词,然后再从这些词中移除停用词,并对剩下的词统计频率,建立倒排索引,得到所述文本向量;
4)将一输入的未分配缺陷报告依照上述步骤1)~3)转换为文本向量,搜索与该未分配缺陷报告相近的缺陷报告数据库中其它缺陷报告的文本向量,得到一文本向量列表;同时判断缺陷报告数据库中是否出现被重复提交的缺陷报告;
5)根据文本向量列表确定该未分配缺陷报告的负责人。
2.如权利要求1所述的方法,其特征在于所述文本向量列表的获取方法为:首先对文本向量建立索引,然后调用Apache Lucene软件包计算未分配缺陷报告的文本向量与其它缺陷报告的文本向量的相似度,并根据文本向量相似度值搜索与未分配缺陷报告的文本向量相近的其它缺陷报告的文本向量,得到所述文本向量列表。
3.一种软件缺陷报告分流方法,其步骤为:
1)从缺陷报告数据库中提取缺陷报告的报告标题、缺陷描述和重现步骤信息;
2)将提取的每个缺陷报告中的上述信息建立成该报告的自然语言形式文本;
3)将每个自然语言形式文本转化成一文本向量;其具体方法为:将每个自然语言形式文本首先经过分词器转化为一个个词,然后再从这些词中移除停用词,并对剩下的词统计频率,建立倒排索引,得到所述文本向量;
4)应用支持向量机算法对文本向量进行训练,建立支持向量机模型;
5)利用支持向量机模型对输入的未分配缺陷报告提供建议的负责人列表。
4.如权利要求3所述的方法,其特征在于所述应用支持向量机算法对文本向量进行训练时,首先将文本向量中的缺陷报告数据格式化为LibSVM软件包所需的输入数据格式,即一个文本件,每行代表一个向量,每行以该向量的类标签<label>为开头,后面跟着一系列<index>:<value>值对,代表一个属性及其值,<index>是一个从1开始的整数,<value>是一个实数;其中<label>为缺陷修复人,所述<index>:<value>数组采用<index>的升序排序,类标签<label>与第一个<index>:<value>值对、以及各个<index>:<value>值对之间用空格隔开;然后对缺陷报告文档中的缺陷修复人作为该缺陷报告文档的类标签加入到该缺陷报告文档中;最后利用文本分类算法对缺陷报告文档进行分类。
5.如权利要求4所述的方法,其特征在于所述支持向量机算法采用LibSVM实现。
6.如权利要求5所述的方法,其特征在于所述LibSVM算法中配置一惩罚参数C用于查找应用场景里的最优值,其中C在2-15到215之间取值,对于每一C都做一次10折交叉验证,计算出C值能够达到的精确度,以精确度最高的C值作为参数,建立所述支持向量机模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091681.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环形件内侧钻孔固定装置
- 下一篇:一种万能旋风铣头