[发明专利]一种融入辅助知识进行刑期预测的方法在审
申请号: | 202111491204.6 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114239939A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 高天寒;贾启振;董傲霜;赵琪珲 | 申请(专利权)人: | 东北大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26;G06F40/205;G06F16/35;G06N5/02 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 辅助 知识 进行 刑期 预测 方法 | ||
1.一种融入辅助知识进行刑期预测的方法,其特征在于,包括如下步骤:
步骤1:获取法律文书样例数据集,使用python语言中的工具包,调用json.loads()方法将法律文书样例数据集中事实描述、涉案法条和刑期结果抽取出来并保存在新文件中;
步骤2:针对法律文书样例数据集分布不均匀的问题,对法律文书样例数据集中样例较少的种类进行数据补充;
步骤3:将步骤1抽取的涉案法条作为辅助知识和事实描述部分进行融合,实现对补充后的数据集进行辅助知识的融合;
步骤4:对融合后的数据集进行数据增强处理,以去除噪音数据;并将数据集随机划分为训练集、测试集和校验集;
步骤5:搭建ERNIE_DPCNN混合网络模型,并对搭建好的模型进行训练、校验和评估;
步骤6:加载步骤5中评估合格的ERNIE_DPCNN混合网络模型,输入法律文书样例对刑期进行预测,将预测结果中概率最高的结果作为最终刑期预测结果。
2.根据权利要求1所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤2的方法如下:
步骤2.1:从网站下载法律文书数据,并将法律文书数据分为文书头部、指控内容、辩护意见、事实描述、判决内容和文书尾部六个部分;
步骤2.2:设计抽取模板,分别对法律文书数据中的事实描述部分和文书尾部部分进行抽取;
步骤2.3:将抽取的事实描述部分和文书尾部部分进行融合,组成训练数据,对法律文书样例数据集进行补充操作。
3.根据权利要求2所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤2中的抽取模板分为事实描述部分抽取模板和文书尾部部分抽取模板;
所诉事实描述部分抽取模板分为前置模板和后置模板两个部分,中间用正则表达式将两个模板进行拼接,在匹配时同时匹配前置模板和后置模板;
所述文书尾部部分抽取模板仅由前置模板拼接正则表达式而成,在匹配时直接匹配到法律文书末尾。
4.根据权利要求1所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤3的过程如下:
步骤3.1:对涉案法条进行截长补短操作,并对事实描述部分进行长度统一操作;
步骤3.2:将涉案法条和事实描述部分进行拼接操作,形成预测文本;
步骤3.3:根据刑期结果设置预测标签Label,并将其作为预测值,组成的“预测文本预测值”作为模型输入数据。
5.根据权利要求4所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述对涉案法条进行截长补短操作的方法为:将法条处理成长度为100的数据,若法条长度不满100则用“[PAD]”补充,若法条长度超出100则直接截长;所述“[PAD]”的作用是,当数据长度不满足所需要求时,作为补充数据进行填充。
6.根据权利要求4所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤3.2中对涉案法条和事实描述部分进行拼接时采用“[SEP]”进行两部分的分割。
7.根据权利要求4所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述根据刑期结果设置预测标签Label的方法如下:
刑期分为有期徒刑1年及以下、1-2年、2-3年、3-4年、4-5年、5-6年、6-7年、7-8年、8-9年、9-10年、10年以上、无期徒刑共十二种刑期预测结果,将这十二种刑期预测结果用预测标签Label来表示,所述Label的数值为整数0-11,与十二种刑期预测结果相对应。
8.根据权利要求1所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤4中的噪音数据包括标点符号、乱码、空行、英文、停用词、时间内容、人名和机构名。
9.根据权利要求1所述的一种融入辅助知识进行刑期预测的方法,其特征在于,所述步骤5的过程如下:
步骤5.1:模型参数初始化,包括ERNIE模型参数初始化和DPCNN模型参数初始化;
步骤5.2:将步骤4得到的训练集输入ERNIE模型进行数据集的向量化即实现训练后的语言表征;
步骤5.3:将向量化后的数据集输入DPCNN模型进行计算,并将ERNIE_DPCNN混合网络模型输出结果输入Softmax分类器中进行分类得到每个类别刑期预测结果的概率值,便完成对模型的训练;
步骤5.4:采用校验集作为校验数据,用于训练模型的超参数;
步骤5.5:采用测试集对模型进行测试,并对测试结果进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491204.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理