[发明专利]一种针对于缺陷报告的多标签标记方法有效
申请号: | 202010984558.3 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112181814B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 谢晓园;陈崧强;苏宇辉;晋硕;姬渊翔 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 缺陷 报告 标签 标记 方法 | ||
1.一种针对于缺陷报告的多标签标记方法,其特征在于,包括以下步骤:
步骤1:构建缺陷报告数据集,根据缺陷报告数据集构建用户指定待选标签集合,根据用户指定待选标签集合构建初始多标签训练数据集,根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集,使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集,根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集;
步骤2:构建基于快速文本分类器算法的文本多类别分类器模型,结合最终多标签训练数据集进行多轮批次的训练,得到训练后的文本多分类模型作为训练后缺陷报告标签预测器;
步骤3:使用训练后缺陷报告标签预测器为缺陷报告进行多标签标记,收集缺陷报告中的用户反馈以及时更新预测模型;
步骤1所述构建缺陷报告数据集为:
所述缺陷报告数据集为:
S={s1,s2,...,sN}
其中,N为收集到的缺陷报告样本的数量;
缺陷报告数据集中第i个缺陷报告样本为:
si=(titlei,bodyi,labelseti),i∈[1,N]
其中,titlei为缺陷报告数据集中第i个缺陷报告的标题,bodyi为缺陷报告数据集中第i个缺陷报告的报告主体,labelseti为缺陷报告数据集中第i个缺陷报告的标签集合;
缺陷报告数据集中第i个缺陷报告样本的标签集合为:
其中,Mi表示缺陷报告数据集中第i个缺陷报告的标签集合中标签的数量,表示为缺陷报告数据集中第i个缺陷报告的标签集合中第j个标签的小写表示;
步骤1所述根据缺陷报告数据集构建用户指定待选标签集合为:
遍历缺陷报告数据集内所有缺陷报告样本,取所有缺陷报告样本的标签集合的并集,得到缺陷报告数据集上的所有标签集合为:
其中,Q为缺陷报告数据集上的所有标签集合中互不相同的样本标签的个数,L0内的任意标签对满足labelp≠labelq,p≠q;
用户从L0中指定R个互不相同的标签作为用户指定待选标签集合,具体定义为:
其中,代表第k个待选标签;
上述用户指定的待选标签集合将被作为多标签预测方法的预测目标;
步骤1所述根据用户指定待选标签集合构建初始多标签训练数据集为:
对于缺陷报告数据集中的每个缺陷报告样本si=(titlei,bodyi,labelseti),i∈[1,N],构建对应的初始多标签训练样本
其中,
对于若labelseti中含有第k个待选标签那么否则
通过构建初始多标签训练数据集Dataset0:
其中,Dataset0表示初始多标签训练数据集;
步骤1所述根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集为:
首先,对于缺陷报告数据集上的所有标签集合中的每个标签即labelk,k∈[1,Q],统计数据集中包含该标签的样本的个数labelcntk;
对于缺陷报告数据集上的所有标签集合L0中的每个标签labelk∈{label1,label2,...,labelQ},取按数据集中包含每个标签的样本个数递减排名前P位的标签构成高频标签集合Ltop:
将高频标签集合即Ltop标签交付给Θ名研究者开展人工补全,其中要求研究者人数满足Θ≥10;
要求研究者彼此独立地从高频标签集合Ltop中选取与待选标签集合Ltgt中每个待选标签在单词语义上近似或在软件工程中属于该待选标签概念的所有高频标签
对于第个研究者给第k个待选标签选取的关联标签集合定义为:
其中,为中关联标签的个数;
将所有研究者为相同待选标签标注的关联标签集合求并集,得到每个待选标签关联的附属标签集;
对于第k个待选标签的附属标签集sublabelsetk定义为:
其中,代表第k个待选标签的附属标签,Uk代表第k个待选标签的附属标签的数量;
对于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset0中的每个数据样本构建
其中,
对于若缺陷报告si的labelseti中含有sublabelsetk中的任意一个标签,那么否则
将构成第一轮补全后的多标签训练数据集即:
其中,Dataset1为第一轮补全后的多标签训练数据集;
步骤1所述使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集为:
通过二分类预测算法,即Fsingle,对于分别建立R个判别模型第k个判别模型用于决策判断输入该模型的缺陷报告是否应当拥有待选标签
对于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset1中的每个数据样本构建
其中,
对于若判别模型判定缺陷报告si应当被标记为带有第k个待选标签那么否则
步骤1所述根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集为:
统计所有缺陷报告样本标题与内容中出现的词汇的词频,取词频递减排名前H位的单词构成高频词汇集合即Wtop:
其次,将高频词汇集合即Wtop标签交付给Θ名研究者,其中要求研究者人数满足Θ≥10;要求研究者彼此独立地从高频词汇集合Wtop中选取与待选标签集合Ltgt中每个待选标签在单词语义上近似或在软件工程中属于该待选标签概念的所有高频词汇
对于第个研究者给第k个待选标签选取的关联词汇集合定义为:
其中,为中关联词汇的个数;
将所有研究者认为相同待选标签标注的关联词汇集合求并集,得到每个待选标签关联的附属词汇集;
对于第k个待选标签即的附属词汇集定义为:
其中,代表第k个待选标签的附属词汇,Vk代表第k个待选标签的附属词汇的数量;
对于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset2中的每个数据样本构建
其中,
对于若si中titlei或bodyi中含有subwordsetk中的任意一个词汇,那么否则
将构成最终多标签训练数据集:
其中,Datasetok为最终多标签训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010984558.3/1.html,转载请声明来源钻瓜专利网。