[发明专利]一种裁判文书评查方法在审
申请号: | 202010391756.9 | 申请日: | 2020-05-11 |
公开(公告)号: | CN111581447A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 康辉;赵旭;孙鑫;李家辉 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9032;G06F16/951;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 朱世林 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 方法 | ||
1.一种裁判文书评查方法,包括以下步骤:
A、裁判文书的爬取
包括:从裁判文书网站爬取已经公布的裁判文书;
B、裁判文书的处理
包括:对导入的裁判文书进行预处理、信息抽取;
C、裁判文书的评查
包括:根据预设评分规则,对法律文书整体进行检验、依据评查标准打分并给出修改意见。
2.根据权利要求1所述的一种裁判文书评查方法,其特征在于,步骤A所述裁判文书的爬取包括以下步骤:
A1、对定向数据抽取:搭建以Scrapy为核心的抓取框架对裁判文书网进行裁判文书的爬取;
A2、处理数据流的噪点:对文书详情页进行解析,将文书的各部分信息分开以存往数据库,达到提前消除文书‘噪声’的效果。
3.根据权利要求2所述的一种裁判文书评查方法,其特征在于,步骤A1所述定向数据抽取,其特征在于,所述的以Scrapy为核心的抓取框架由中间的scrapy引擎、Middlewares中间件、Item实体类、Scheduler请求序列以及Downloader下载器和Spider原始网页请求组成。
4.根据权利要求1所述的一种裁判文书评查方法,其特征在于,步骤B所述裁判文书的处理包括以下步骤:
B1、预处理单元:对接收的文本进行清洗,包括:编码转换、去除噪声;对清洗后的文本进行结构化,包括:分块、分段并且生成每个文本段落的多个词样本;对每个文本段落的词样本进行筛选,包括:去除每个文本段落的停用词,所述停用词包括:标点符号、数学字符、和/或高频无用词;
B2、信息抽取单元:识别爬取的裁判文书的文书类型;获取与文书类型匹配的划分规则;根据划分规则对裁判文书提取文本信息。
5.根据权利要求1所述的一种裁判文书评查方法,其特征在于,步骤C所述裁判文书的评查包括以下步骤:
C1、校验文书整体格式;
C2、校验信息完整度:校验是否由标题、正文、落款三部分组成;所述标题,包括:法院名称、文书名称和案号;所述正文,包括:首部、事实、理由、裁判依据、裁判主文和尾部;所述落款,包括署:名和日期;
C3、评查判决理由:接受待评查的判决理由文本段落,将待处理的判决理由文本段落输入至经训练的深度神经网络模型;以及从所述深度神经网络模型输出该文本段落合理的概率;如果所述概率高于阈值,则确定所述判决理由文本段落合理;
C4、根据结果进行打分并给出修改意见。
6.根据权利要求5所述的一种裁判文书评查方法,其特征在于,步骤C3评查判决理由中,所述的深度神经网络模型通过若干带有标签的正样例集和负样例集训练语言模型、双向长短时记忆网络所得的。
7.根据权利要求6所述的一种裁判文书评查方法,其特征在于,所述正样例集包括:判决理由叙述完整且表述合理的文本段落,且所述负样例集包括:判决理由叙述不完整或表述不合理的文本段落,包括以下一者或多者:未明确纠纷的性质、案由;未依照法律、司法解释规定的法律适用规则进行分析;未围绕争议焦点阐明理由。
8.根据权利要求6所述的一种裁判文书评查方法,其特征在于,对所述正样例集和所述负样例集中的文本段落进行分词拆解,以生成每个文本段落的多个词样本;所述的生成每个文本段落的多个词样本,包括:对每个文本段落的词样本进行筛选,所述对每个文本段落的词样本进行筛选,包括:去除每个文本段落的停用词,所述停用词包括:标点符号、数学字符和高频无用词,以及使用所述正样例集中的文本段落的词样本和所述负样例集中的文本段落的词样本来训练深度神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010391756.9/1.html,转载请声明来源钻瓜专利网。