[发明专利]一种基于多目标优化的刑罚测试数据扩增方法有效
申请号: | 202010763765.6 | 申请日: | 2020-08-01 |
公开(公告)号: | CN111881654B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 夏春艳;张岩;李明 | 申请(专利权)人: | 牡丹江师范学院 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/211;G06F16/33;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 157012 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多目标 优化 刑罚 测试数据 扩增 方法 | ||
1.一种基于多目标优化的刑罚测试数据扩增方法,其特征在于将基于遗传算法的多目标优化技术应用到司法刑罚测试数据扩增中,通过多目标优化技术与数据扩增方法的融合,为司法智能软件扩增出强泛化能力的测试数据,有效地测试刑罚预测模型的准确性,该方法包括如下步骤:
1)测试数据扩增,在刑罚预测模型原始测试集的基础上,通过置换、插入和删除文本中句子的方式获得大量的具有相同标签的扩增数据;首先,输入结构良好的司法裁判文书文本数据作为原始测试数据集D0,按照标签“案件罪名”对文本测试数据进行分类,抽取每个案件的“案情事实”和“刑期结果”的标签内容,对“案件事实”做初步的文本预处理,“刑期结果”做简单的数学统计,分为三类:死刑、无期徒刑和有期徒刑;然后,对于“案件罪名”标签相同的案件,以“案情事实”文本中的整个句子为基本单位,通过置乱句子、删除句子和插入句子三种方式对D0进行扩增,可获得三个与原始数据集规模相同的新数据集,将其混合得到扩增数据集D;
2)测试数据优化,以测试数据的精确率、召回率和F1值,以及针对刑罚预测模型测试数据的重要度为优化目标,利用遗传算法的选择、交叉和变异操作,从扩增的大量数据中搜索高质量的测试数据,从而增加扩增测试数据的数量和多样性,提高扩增测试数据的泛化能力;第一,以扩增数据集D中案例数据对应的序号作为输入数据,对所有数据进行全排列,随机选择n个排列序列构建初始种群,每个个体包含的测试案例数量为m;个体采用十进制编码方式,基本基因位代表相应的测试案例序列号;第二,将种群数据注入到刑罚预测模型,获得测试数据的精确率、召回率和F1值;对于“案件罪名”标签相同的案件,统计每类案件中死刑、无期徒刑和有期徒刑三类刑罚数据在个体和种群中出现的频率,综合评价其所在个体的重要程度;第三,以测试数据的精确率、召回率、F1值和重要度为优化目标,利用多目标遗传算法的选择、交叉和变异操作搜索高质量的测试数据,获得扩增测试数据集D′;第四,将本设计获得的扩增测试数据集D′注入到刑罚预测模型进行测试,计算模型的准确率,以此来检验本设计方法获得的扩增测试数据的泛化能力。
2.根据权利要求1中所述的基于遗传算法的刑罚预测测试数据扩增方法,其特征在于,在步骤1)中,测试数据扩增;第一,输入原始测试数据集D0={d1,d2,…,dt},dt表示第t个测试数据,其为结构良好的司法裁判文书文本数据,包括案件罪名、案发时间、案发地点、案情事实和刑罚结果;第二,按照“案件罪名”对案件文本测试数据进行分类,抽取每个案件的案情事实和刑罚结果的标签内容;第三,对“案情事实”进行初步的文本预处理,根据常用停止词列表去除文本中无意义的停止词;对“刑罚结果”做简单的数学统计,分为三类:死刑、无期徒刑和有期徒刑;第四,对于“案件罪名”标签相同的案件,我们针对“案情事实”文本中的句子,以置乱句子、删除句子和插入句子三种方式对D0进行扩增,具体如下:
置乱,本设计以文本中的完整句子为基本单位,由于句子顺序对描述事实的文本意义影响不大,所以随机地置乱原文本中句子的顺序,可得到与原文本数据具有相同标签的规模相同的扩增数据集D1={d11,d12,…,d1t};
删除,由于描述事实的文本中含有很多冗余的句子,这些句子对文本描述的意义影响不大,删除它们不会影响对案例的理解,所以采用随机方法,随机地删除原文本中的一个句子;如果原文本中只包含一个句子,则不进行任何处理;对每个文本执行相同的删除操作,可得到与原文本数据具有相同标签的规模相同的扩增数据集D2={d21,d22,…,d2t};
插入,由于案件罪名相同的案例在描述文本时会有许多相似的句子,所以将具有相同案件罪名标签的文本数据划分为一类;从另一个具有相同标签的文本中选择一个句子,再随机地插入到原文本数据中,可得到与原文本数据具有相同标签的规模相同的扩增数据集D3={d31,d32,…,d3t};
通过上述三种数据扩增方法,可以获得三个与原始数据集规模相同的新数据集,将其混合得到扩增数据集D=D1∪D2∪D3。
3.根据权利要求1所述的基于遗传算法的刑罚预测测试数据扩增方法,其特征在于,在步骤2)中,测试数据优化;
1)以结构化文本类扩增数据集D中案例数据对应的序号作为输入数据,对所有数据进行全排列,随机选择n个排列序列构建初始种群,个体采用十进制编码方式,基本基因位代表相应的测试案例序列号;其中,初始种群为x={x1,x2,…,xi,…,xn},n为种群规模,x的第i个个体为xi={xi,1,xi,2,…,xi,j,…,xi,m},xi,j代表xi的第j个测试案例,m为xi包含的测试案例的数量;
2)将上述种群数据注入到刑罚预测模型,获得测试数据的精确率、召回率和F1值;对于“案件罪名”标签相同的案件,统计每类案件中死刑、无期徒刑和有期徒刑三类刑罚数据在个体和种群中出现的频率,综合评价其所在个体的重要程度;计算公式如下:
精确率在被模型预测为正确的样本中,实际是正确样本的概率,表达式为
召回率在实际为正确的样本中,被模型预测为正确样本的概率,表达式为
F1值综合评价精确率和召回率,让两者同时达到最高,取得的平衡点,表达式为
微观层面上看,指模型正确地预测了xi的真样本的个数;指模型正确地预测了xi的假样本的个数;指模型错误地预测了xi的真样本的个数;
重要度综合评价个体的重要程度,与个体中出现的频率成正比,与种群中出现的频率成反比,表达式为
其中
上式中,m表示xi包含的测试数据的总数,当k=1,2,3时,分别表示死刑、无期徒刑和有期徒刑三类特征数据在xi中出现的次数,FDk(xi)分别表示死刑、无期徒刑和有期徒刑三类特征数据在xi中的分布情况
3)以测试数据的精确率、召回率、F1值和重要度为优化目标,利用多目标遗传算法的选择、交叉和变异操作搜索高质量的测试数据,获得扩增测试数据集D′={d1,′d2,′…dm′};其中,选择操作采用锦标赛选择策略,交叉操作采用循环交叉方法,变异操作采用序号变异方法,具体如下:
选择算子:采用锦标赛选择策略;每次从种群n中随机选择数量为n/2的个体,然后采用非支配排序算法求得帕累托最优解,从中选择最优的个体进入子代种群;重复上述操作,直到新的种群规模达到n为止;
交叉算子:采用循环交叉方法;第一步,在父代1上随机选择一个基因,然后找到父代2相应位置上的基因编号,再回到父代1找到同编号的基因位置,重复先前工作,直至形成一个环,环中的所有基因的位置即为最后选中的位置;第二步,用父代1选中的基因生成子代,并保证位置对应;第三步,将父代2中剩余的基因放入子代;
变异算子:采用序号变异方法;随机选择父代个体的一个基因位,将该点的测试案例删除,然后随机插入一个与当前个体中已有基因不重复的测试案例,形成一个新的子代个体;
4)将本设计获得的扩增测试数据集注入到刑罚预测模型进行测试,计算模型的准确率,以此来检验本设计方法获得的扩增测试数据的泛化能力;其中,准确率是评价深度学习模型性能的一般指标,指的是对于给定的测试数据集,模型正确分类的样本数和总样本数之比,表达式为
微观层面上看,指模型正确地预测了xi的真样本的个数;指模型正确地预测了xi的假样本的个数;指模型错误地预测了xi的真样本的个数;指模型错误地预测了xi的假样本的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牡丹江师范学院,未经牡丹江师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010763765.6/1.html,转载请声明来源钻瓜专利网。