[发明专利]一种基于主动学习的用户需求标注过程管理方法在审
申请号: | 202110045602.9 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112560410A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 李传艺;张晟宇;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 用户 需求 标注 过程 管理 方法 | ||
1.一种基于主动学习的用户需求标注管理方法,其特征在于,包括:
获取用户需求描述,对每一个需求描述抽取词级别的特征向量;
基于需求特征向量和文本内容,应用聚类算法,对用户需求按照类型进行排序;
筛选出一部分用户需求,对其进行人工标注,根据特征向量训练分类模型;
使用分类模型对所有剩余未标注数据进行类型预测,获得类型概率分布,对未标注需求再次排序,循环执行上一步骤,直到模型性能达到预期。
2.根据权利要求1所述的方法,其特征在于获取用户需求描述,对每一个需求描述抽取词级别的特征向量包括:
根据已有的用户需求的分类标准给出七个类别的非项日特定的关键词,再利用单词的相似度从每个软件项目的用户需求数据集中选出项目特定的关键词,将这两部分关键词汇总为每一个类别的关键词在每一条用户需求中统计每个类别关键词的数量,将这七个数值拼接成一个1×7的向量作为需求文本的关键词频率向量;
针对用户需求定义18个对于分类有帮助的问题,并给出各个问题的通用表达式,根据用户需求文本与通用表达式的匹配情况,将每一条需求对应于一个1×18的启发式属性向量;
对用户需求计算TF-IDF(词频-逆文本频率指数,Term Frequency-Inverse DocumentFrequency)特征向量。
3.根据权利要求1所述方法,其特征在于基于需求特征向量和文本内容,应用聚类算法,对用户需求按照类型进行排序包括:
利用高斯混合模型对未标注的用户需求聚类,并记录聚类的概率结果,聚类模型的输入是用户需求的关键词频率向量;
对所有的未标注的用户需求进行文本预处理,包括去除拼写错误的词、停用词,并统计聚类结果中各簇中所有出现的单词在这一簇中的频率;
利用上一步统计的词频,计算每条用户需求与各簇之间的文本相似度,并根据文本相似度调整聚类结果,并将这一过程重复若干次,直到聚类结果没有变动为止;
根据最终的聚类结果,将所有的未标注的用户需求按规则进行排序,其规则为:按照每一簇中包含的用户需求从小到大进行排序,按照每一簇中用户需求的聚类后验概率与文本相似度进行排序。
4.根据权利要求1所述的方法,其特征在于筛选出一部分用户需求,对其进行人工标注,根据特征向量训练分类模型包括:
根据排序结果筛选出一定数据量的用户需求,人工标注其类型;
使用Word2Vec方法,将需求文本中出现的所有单词表示为向量,即每一条需求文本用一个len×emb的矩阵来表示,len是需求文本中单词的个数,emb是Word2Vec的嵌入维度,最终每一个需求表示为矩阵;
使用卷积神经网络训练分类模型,包括多个卷积核对矩阵进行卷积操作,得到一个较小的矩阵,再对矩阵进行池化操作,得到一个更小的矩阵,最后进行折叠操作,将矩阵降维为一个一维向量;
将利用卷积神经网络处理过的Word2Vec矩阵与权力要求1或权力要求2中获得的关键词向量、启发式属性向量和TF-IDF向量拼接,得到用户需求文本完整的特征向量;
将得到的特征向量输入神经网络,经过隐藏层的处理之后,利用Softmax函数输出需求所属类别的概率向量,以此训练分类模型。
5.根据权利要求1所述的方法,其特征在于使用分类模型对所有剩余未标注数据进行类型预测,获得类型概率分布,对未标注需求再次排序,循环执行上一步骤,直到模型性能达到预期包括:
计算未分类用户需求的关键词向量与启发式属性向量和TF-IDF向量,并根据前两种特征计算每条未标注的用户需求与已标注的用户需求的差异性;
预处理未标注的用户需求使之满足分类模型的输入;
根据已有的分类模型对未标注的用户需求进行预测,并计算模型对于每一条用户需求的不确定性,即预测类型的最大概率和次大概率之间的差值表示不确定性;
根据差异性与不确定性对所有的未标注的用户需求进行排序,重复执行权力要求4中定义的步骤,直到分类模型的性能达到预设条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045602.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:真空保温管
- 下一篇:一种高精度斜齿传动抛光机及其加工装配方法