[发明专利]一种基于多目标优化的刑罚测试数据扩增方法有效
申请号: | 202010763765.6 | 申请日: | 2020-08-01 |
公开(公告)号: | CN111881654B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 夏春艳;张岩;李明 | 申请(专利权)人: | 牡丹江师范学院 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/211;G06F16/33;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 157012 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多目标 优化 刑罚 测试数据 扩增 方法 | ||
一种基于多目标优化的刑罚测试数据扩增方法,其特征在于将优化技术应用到司法刑罚预测的测试数据扩增中,通过优化技术与数据扩增方法的融合,为司法智能软件扩增泛化能力较强的测试数据,有效地测试刑罚预测模型的准确性。方法主要分为两个步骤,第一个步骤为测试数据扩增,在刑罚预测模型原始测试集的基础上,通过置换、插入和删除文本中句子的方式获得大量的具有相同标签的扩增数据;第二个步骤是测试数据优化,以测试数据的精确率、召回率和F1值,以及针对刑罚预测模型测试数据的重要度为优化目标,利用多目标遗传算法的选择、交叉和变异操作,从扩增的大量数据中搜索高质量的测试数据,从而增加扩增测试数据的数量和多样性,提高扩增测试数据的泛化能力。本发明可以基于司法本文数据为刑罚预测模型扩增测试数据,解决缺少司法测试数据的问题,保障智能软件测试的质量。
技术领域
本发明属于智能软件测试领域,还涉及到深度学习和自然语言处理技术,其目的在于为智能软件扩增泛化能力较强的测试数据,是一种基于司法文本的测试数据扩增方法,能够有效的测试刑罚预测模型的性能。
背景技术
随着法院信息化3.0建设的推进和机器学习技术的飞速发展,可由计算机存储和处理的司法数据快速增长,司法机关纷纷将深度学习方法引入到法律服务领域,实现司法业务的智能化。近年来,以裁判文书或案情事实等司法文本作为输入的刑罚预测智能软件在司法领域中的研究取得了一定的成果,如自动量刑预测和罪名预测等。为了提高刑罚预测模型的准确率,研究人员不断增加模型的参数,并且扩大训练集规模,这就对用于测试模型性能的数据集提出了新的要求,即测试数据的数量和多样性。实际上,在刑罚预测领域很难获得大量的标签数据。在这种情况下,我们利用数据扩增手段,在不实际增加原始测试数据的基础上,对原始测试数据做一些微小变换可获得更多的测试数据,这种方法能够有效地为刑罚预测模型获得大量的具有相同标签的测试数据。
随着文本分析技术的发展和数据扩增方法的不断涌现,获得的司法文本扩增测试数据迅猛增长,这就有必要依赖优化技术从中筛选能够测试模型性能的高质量测试数据。遗传算法作为一类启发式搜索算法,是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,其主要目标就是快速地在搜索空间中寻求问题的最优解或近似最优解,已被成功应用于优化领域。鉴于此,我们将优化技术与数据扩增方法相融合,把从大量的扩增数据中搜索高质量的测试数据问题转化为基于遗传算法的多目标优化问题,从而增加刑罚预测模型测试数据的数量和多样性,目的在于为深度学习得到的预测模型提供具有较好泛化能力的扩增测试数据。
发明内容
本发明通过对司法裁判文书进行文本数据扩增,获得大量的扩增测试数据,融合基于遗传算法的多目标优化技术,从扩增数据中自动搜索适合刑罚预测的高质量测试数据,为刑罚预测模型提供泛化能力较强的扩增测试数据,满足模型对测试数据的数量和多样性的需求。
为达成上述目标,本发明提供了一种基于多目标优化的刑罚测试数据扩增方法,首先,在刑罚预测模型原始测试集的基础上,通过置换、插入和删除文本中句子的方式获得大量的具有相同标签的扩增数据。然后,以测试数据的精确率、召回率和F1值,以及针对刑罚预测模型测试数据的重要度为优化目标,利用遗传算法从扩增的大量数据中搜索高质量的测试数据,从而增加扩增测试数据的数量和多样性,提高扩增测试数据的泛化能力。其特征在于包含以下步骤。
步骤1.测试数据扩增
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牡丹江师范学院,未经牡丹江师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010763765.6/2.html,转载请声明来源钻瓜专利网。