[发明专利]一种针对于缺陷报告的多标签标记方法有效

申请号：	202010984558.3	申请日：	2020-09-18
公开（公告）号：	CN112181814B	公开（公告）日：	2021-11-16
发明（设计）人：	谢晓园;陈崧强;苏宇辉;晋硕;姬渊翔	申请（专利权）人：	武汉大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06K9/62
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	许莲英
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对缺陷报告标签标记方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对于缺陷报告的多标签标记方法，其特征在于，包括以下步骤：

步骤1：构建缺陷报告数据集，根据缺陷报告数据集构建用户指定待选标签集合，根据用户指定待选标签集合构建初始多标签训练数据集，根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集，使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集，根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集；

步骤2：构建基于快速文本分类器算法的文本多类别分类器模型，结合最终多标签训练数据集进行多轮批次的训练，得到训练后的文本多分类模型作为训练后缺陷报告标签预测器；

步骤3：使用训练后缺陷报告标签预测器为缺陷报告进行多标签标记，收集缺陷报告中的用户反馈以及时更新预测模型；

步骤1所述构建缺陷报告数据集为：

所述缺陷报告数据集为：

S＝{s₁，s₂，...，s_N}

其中，N为收集到的缺陷报告样本的数量；

缺陷报告数据集中第i个缺陷报告样本为：

s_i＝(title_i，body_i，labelset_i)，i∈[1，N]

其中，title_i为缺陷报告数据集中第i个缺陷报告的标题，body_i为缺陷报告数据集中第i个缺陷报告的报告主体，labelset_i为缺陷报告数据集中第i个缺陷报告的标签集合；

缺陷报告数据集中第i个缺陷报告样本的标签集合为：

其中，M_i表示缺陷报告数据集中第i个缺陷报告的标签集合中标签的数量，表示为缺陷报告数据集中第i个缺陷报告的标签集合中第j个标签的小写表示；

步骤1所述根据缺陷报告数据集构建用户指定待选标签集合为：

遍历缺陷报告数据集内所有缺陷报告样本，取所有缺陷报告样本的标签集合的并集，得到缺陷报告数据集上的所有标签集合为：

其中，Q为缺陷报告数据集上的所有标签集合中互不相同的样本标签的个数，L₀内的任意标签对满足label_p≠label_q，p≠q；

用户从L₀中指定R个互不相同的标签作为用户指定待选标签集合，具体定义为：

其中，代表第k个待选标签；

上述用户指定的待选标签集合将被作为多标签预测方法的预测目标；

步骤1所述根据用户指定待选标签集合构建初始多标签训练数据集为：

对于缺陷报告数据集中的每个缺陷报告样本s_i＝(title_i，body_i，labelset_i)，i∈[1，N]，构建对应的初始多标签训练样本

其中，

对于若labelset_i中含有第k个待选标签那么否则

通过构建初始多标签训练数据集Dataset⁰：

其中，Dataset⁰表示初始多标签训练数据集；

步骤1所述根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集为：

首先，对于缺陷报告数据集上的所有标签集合中的每个标签即label_k，k∈[1，Q]，统计数据集中包含该标签的样本的个数labelcnt_k；

对于缺陷报告数据集上的所有标签集合L₀中的每个标签label_k∈{label₁，label₂，...，label_Q}，取按数据集中包含每个标签的样本个数递减排名前P位的标签构成高频标签集合L_top：

将高频标签集合即L_top标签交付给Θ名研究者开展人工补全，其中要求研究者人数满足Θ≥10；

要求研究者彼此独立地从高频标签集合L_top中选取与待选标签集合L_tgt中每个待选标签在单词语义上近似或在软件工程中属于该待选标签概念的所有高频标签

对于第个研究者给第k个待选标签选取的关联标签集合定义为：

其中，为中关联标签的个数；

将所有研究者为相同待选标签标注的关联标签集合求并集，得到每个待选标签关联的附属标签集；

对于第k个待选标签的附属标签集sublabelset_k定义为：

其中，代表第k个待选标签的附属标签，U_k代表第k个待选标签的附属标签的数量；

对于s_i＝(title_i，body_i，labelset_i)，i∈[1，N]和Dataset₀中的每个数据样本构建

其中，

对于若缺陷报告s_i的labelset_i中含有sublabelset_k中的任意一个标签，那么否则

将构成第一轮补全后的多标签训练数据集即：

其中，Dataset¹为第一轮补全后的多标签训练数据集；

步骤1所述使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集为：

通过二分类预测算法，即F_single，对于分别建立R个判别模型第k个判别模型用于决策判断输入该模型的缺陷报告是否应当拥有待选标签

对于s_i＝(title_i，body_i，labelset_i)，i∈[1，N]和Dataset₁中的每个数据样本构建

其中，

对于若判别模型判定缺陷报告s_i应当被标记为带有第k个待选标签那么否则

步骤1所述根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集为：

统计所有缺陷报告样本标题与内容中出现的词汇的词频，取词频递减排名前H位的单词构成高频词汇集合即W_top：

其次，将高频词汇集合即W_top标签交付给Θ名研究者，其中要求研究者人数满足Θ≥10；要求研究者彼此独立地从高频词汇集合W_top中选取与待选标签集合L_tgt中每个待选标签在单词语义上近似或在软件工程中属于该待选标签概念的所有高频词汇

对于第个研究者给第k个待选标签选取的关联词汇集合定义为：

其中，为中关联词汇的个数；

将所有研究者认为相同待选标签标注的关联词汇集合求并集，得到每个待选标签关联的附属词汇集；

对于第k个待选标签即的附属词汇集定义为：

其中，代表第k个待选标签的附属词汇，V_k代表第k个待选标签的附属词汇的数量；

对于s_i＝(title_i，body_i，labelset_i)，i∈[1，N]和Dataset²中的每个数据样本构建

其中，

对于若s_i中title_i或body_i中含有subwordset_k中的任意一个词汇，那么否则

将构成最终多标签训练数据集：

其中，Dataset^ok为最终多标签训练数据集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010984558.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种考虑尺寸控制的多孔材料跨尺度可靠性拓扑优化方法
下一篇：一种氧化碳纳米管的制备方法与应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对于缺陷报告的多标签标记方法有效

专利文献下载