[发明专利]一种基于主动学习的用户需求标注过程管理方法在审
申请号: | 202110045602.9 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112560410A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 李传艺;张晟宇;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 用户 需求 标注 过程 管理 方法 | ||
本发明公开了一种基于主动学习的用户需求标注过程管理方法,包括以下步骤:用户需求特征抽取,包括抽取关键词频率向量、抽取启发式属性向量和计算TF‑IDF向量;用户需求排序,包括用户需求排序、文本预处理、根据文本相似度调整和根据聚类结果排序;训练分类模型,包括嵌入向量、利用卷积神经网络处理用户需求文本矩阵、用户需求的特征整合和神经网络预测分类;用户需求再排序,包括计算差异性、用户需求预处理、计算不确定性和对用户需求重新排序。本发明利用了案件类别信息辅助法条推荐,同时使用了注意力机制,能够更多得关注于重点词汇,提高了法条推荐的准确性。
技术领域
本发明涉及一种用户需求的标注方法,具体涉及一种基于主动学习的用户需求标注过程管理方法,属于需求工程,自然语言处理技术领域。
背景技术
近些年来,随着软件规模的不断增长,加之软件需求的多样性、数字环境的复杂性、一致性、易变性和不可见性等因素的影响,软件的开发效率和质量仍无法满足软件产业发展的客观需要。因此,软件技术不断更新,其中用户需求的复用颇受关注。需求工程是软件开发过程中最早的阶段,用户需求的复用可以节约需求分析的时间,还可以帮助快速定位到其它可复用的软件资产。
为了更好地对用户需求进行复用,需要将非正式的、非结构化的用户需求转写为结构合理的需求规格说明书,需要将它们分成不同的类型。用户需求的数量众多,全部人工地对其进行分类是不切实际的。关于自动化的需求分类已经有了大量的研究,尤其是使用自然语言处理技术的方法。随着机器学习技术的飞速发展,监督学习算法得到了广泛应用,并且在文本分类问题上取得了卓越的表现。在此基础上,基于机器学习和深度学习的分类算给广泛应用于用户需求分类问题中,且均取得了良好的分类性能。为了使得这些基于监督学习算法的分类系统取得良好的性能,必须人为地标注大量的用户需求实例并依此进行模型的训练。然而,人为地标注用户需求的类型会消耗大量的人力和时间,且对于大型的软件项目,甚至是容易出错的。因此,为了降低人为标注的工作量,减少软件开发的成本,有效地选择训练集、避免浪费标注成本是十分必要的。
主动学习是一种著名的机器学习算法,它利用查询策略从未标注的数据实例中进行选择,从而降低标注成本,能够克服标注瓶颈。以此方式,有监督的学习算法可以利用尽可能少的标注的数据实例来实现具有较高的准确率的模型。
在不同的主动学习的模式中,基于池的主动学习在文本分类问题中被广泛地应用,其中查询策略主要是基于不确定性的抽样。在需求分类问题中,这一主动学习模式也被广泛应用。该算法主要是在已有分类模型的基础上,对已收集到的且未标注的用户需求进行预测,并根据不同的策略,例如最小信心策略,从所有备选用户需求中选出模型对其类型的把握最低的若干条进行标注,从而有效地提高模型的准确率,节省基于监督学习算法的模型所需的标注成本。但是,对于用户需求的自动化分类,目前已有的主动学习算法在两个方面存在局限性:种子选择策略和查询策略。对于种子选择策略,大多数现有的主动学习算法所采取的方法是随机选取若干条未标注的数据实例以构成初始的种子数据集。对于用户需求分类这一问题来说,由于类型众多且类型分布不平衡,因此通过这种随机选择的方式所选出的种子集中可能很可能出现一个现象:某些占比较低的类型的数据实例不会出现在种子数据集中。这样的种子数据集可能会导致后续的查询策略完全忽略缺失的类型的数据实例,因此大大降低了分类器在这些缺失的类型的表现,从而降低了主动学习速度,即缺类效应。对于查询策略,基于不确定性的采样是一种探索性策略,它根据模型对于未标注的数据的不确定性来进行选择,因此会使得主动学习器错误地对属于缺失类型的数据实例过度地自信,即采样偏差。在每次软件更新迭代之后,会有大量属于新类型的用户需求被提出,基于不确定性的抽样很难能够选择出属于“新类”的数据实例,因此分类器的效果将很差。即使设计良好的种子选择策略可以构成包含所有已有类型的实例的种子数据集,仍然需要一种查询策略在每次迭代更新之后中选取新的用户需求,尤其是找出属于“新类”的数据实例。因为用户需求的类型分布是非常不平衡的,所以这两个问题在应用于用户需求分类的主动学习算法中将会更加严重。因此在本发明中,我们提出了一种基于用户需求领域知识的种子选择策略,以及一种基于差异性与不确定性的查询策略,来优化用户需求类型标注的过程管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045602.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:真空保温管
- 下一篇:一种高精度斜齿传动抛光机及其加工装配方法