[发明专利]一种面向裁判文书的文本信息抽取方法在审
申请号: | 201810534632.4 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108763483A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 葛季栋;周业茂;庄楚涵;李传艺;董艺璇;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 裁判 文本信息抽取 分段模型 文书信息 信息项 存储逻辑 模型转化 提取信息 文本分析 重要基础 输出 构建 书写 中文 案件 分析 | ||
1.一种面向裁判文书的文本信息抽取方法,其特征在于包括以下步骤:
步骤(1)根据中文裁判文书的书写规律与文书结构,将文书划分为七个逻辑段,设计文书分段模型存储逻辑段;
步骤(2)分析各逻辑段的内容,结合法律标准和法院业务需求,确定每个逻辑段包含的信息项,设计文书信息项模型存储信息项;
步骤(3)以中文裁判文书为输入,以逻辑段的特征为依据,划分裁判文书,输出文书分段模型;
步骤(4)以文书分段模型为输入,以信息项特征为依据,提取信息项内容,构建文书信息项模型;
步骤(5)将文书信息项模型转化为XML结构化文档。
2.根据权利要求1所述的一种面向裁判文书的文本信息抽取方法,其特征在于步骤(1)中根据中文裁判文书的书写规律与文书结构,将文书划分为七个逻辑段,设计文书分段模型存储逻辑段;且步骤(2)中分析各逻辑段的内容,结合法律标准和法院业务需求,确定每个逻辑段包含的信息项,设计文书信息项模型,具体包括:
步骤(1.1)总结中文裁判文书书写规律和文书结构,将文书各段落按照逻辑关系划分为七个逻辑段落,包括“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”和“文尾”;
步骤(1.2)设计文书分段模型用以存储文书各逻辑段,每个逻辑段包含若干个自然段;
步骤(2.1)分别针对民事一审、民事二审、刑事一审、刑事二审、行政一审、行政二审共六种案件类型,结合法律标准和法院业务需求,分析各案件类型的裁判文书,确定各逻辑段中可以提取的信息项;
步骤(2.2)分别针对(2.1)中的六种案件类型,结合文书分段模型,按照信息项之间的层级关系,为各逻辑段设计逻辑段信息项模型,存储信息项相关信息;
步骤(2.3)将逻辑段信息项模型组织为文书信息项模型,包含了裁判文书全文的所有信息。共设计民事一审、民事二审、刑事一审、刑事二审、行政一审、行政二审六类文书信息项模型。
3.根据权利要求1所述的一种面向裁判文书的文本信息抽取方法,其特征在于步骤(3)以中文裁判文书为输入,以逻辑段特征为依据,输出文书分段模型,具体包括:
步骤(3.1)针对各逻辑段,确定可以标志该逻辑段落的敏感词,为各逻辑段构建敏感词库。
步骤(3.2)对中文裁判文书内容进行预处理,清除干扰项,包括:换行符、全半角空格、空白行、提前换行;
步骤(3.3)按照从头至尾的顺序,以自然段为单位,扫描预处理后的文书内容。每扫描一个自然段,根据逻辑段的敏感词库,以及敏感词出现位置,判断该自然段所属的逻辑段,将该自然段加入文书分段模型的所属逻辑段内;
步骤(3.4)扫描结束后,完成了全文逻辑段划分,输出文书分段模型。
4.根据权利要求1所述的一种面向裁判文书的文本信息抽取方法,其特征在于步骤(4)以文书分段模型为输入,信息项特征为依据,提取信息项内容,构建文书信息项模型,具体包括:
步骤(4.1)以文书分段模型为输入,使用正则表达式从“文首”逻辑段内提取出案件性质、审判程序,根据案件性质、审判程序确定该文书所属的案件类型;
步骤(4.2)根据案件类型,将文书分段模型发送给该案件类型的文书解析器;
步骤(4.3)针对每种案件类型,文书解析器由该案件类型的逻辑段解析器组成,包括文首解析器、当事人解析器、诉讼记录解析器、案件基本情况解析器、裁判分析过程解析器、判决结果解析器和文尾解析器。
步骤(4.4)各逻辑段解析器从文书分段模型中获取对应逻辑段,使用正则表达式、分析工具、语义分析的方法,逐个提取逻辑段内的信息项,构造逻辑段信息项模型;
步骤(4.5)对于法律标准中有明确定义,但原文中只给出描述,没有直接给出取值的信息项,需要对其进行特征映射,根据原文描述确定该信息项取值。进行特征映射,需要根据该信息项的所有固定取值,建立对应的敏感词特征库,敏感词特征包含若干敏感词以及敏感词之间的顺序关系。根据信息项的原文描述,逐个判断原文描述是否满足固定取值的敏感词特征,当满足敏感词特征时,将对应的固定取值赋予该信息项;
步骤(4.6)文书解析器将各逻辑段解析器构造的逻辑段信息项模型组织为文书信息项模型。
5.根据权利要求1所述的一种面向裁判文书的文本信息抽取方法,其特征在于步骤(5)将文书信息项模型转化为XML结构化文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810534632.4/1.html,转载请声明来源钻瓜专利网。