[发明专利]基于键值记忆网络的案件案由分类方法及介质有效
申请号: | 202010413889.1 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111651594B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 黄璇璇;程威宇;沈艳艳 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/279;G06Q50/18;G06N3/04 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 键值 记忆 网络 案件 案由 分类 方法 介质 | ||
本发明提供了一种基于键值记忆网络的案件案由分类方法及介质,包括:1)数据预处理:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;2)模型构建:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;3)模型训练:通过训练数据对建立的案由分类模型进行优化,得到最优参数;4)模型预测:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。本发明使用键值记忆增强神经网络进行案由分类,能够借助法律条文的引用信息有效提取案情关键信息,提高样本数量较少的案由的分类准确率,进而提升案由分类的总体准确度。
技术领域
本发明涉及数据处理技术领域,具体地,涉及基于键值记忆网络的案件案由分类方法及介质。尤其地,涉及一种基于键值记忆增强神经网络的案件案由分类方法。
背景技术
案由分类对构建智能法律文书案件评查系统具有重要意义,给专业人员(例如法官和律师)提供方便的参考,提高他们的工作效率。案由分类同时也是立案、审判实务中不可回避的问题,案由确定的准确与否有利于对受理案件进行分类管理,有利于人民法院在审判务实中准确确定案件诉讼争点和正确使用法律,提高案件司法统计的准确性、科学性。
专利文献CN110502634A(申请号:201910742625.8)公开了一种案由的判定和抓取方法及其系统,判定方法包括以下步骤:获取待判定的案件描述文本数据;对文本数据进行分词处理和去噪处理;从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;所述抓取方法包括以下步骤:利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;对获取到的案例信息数据通过正则表达式进行结构化数据清洗。但该方法案由的判定和抓取准确度偏低。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于键值记忆网络的案件案由分类方法及介质。
根据本发明提供的一种基于键值记忆网络的案件案由分类方法,包括如下步骤:
数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。
模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。
优选地,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:
司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;
所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。
优选地,所述模型构建步骤具体包括:
对引用法条表示向量的建模;
对案情描述文本表示向量的建模;
对键值记忆增强神经网络的建模。
优选地,对引用法条表示向量的建模,具体包括:
将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。
优选地,所述对案情描述文本表示向量建模,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010413889.1/2.html,转载请声明来源钻瓜专利网。