[发明专利]一种法律文书案例抽取方法、系统和存储介质有效
申请号: | 202211337416.3 | 申请日: | 2022-10-28 |
公开(公告)号: | CN115391496B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 华菁云;王宇龙;周明 | 申请(专利权)人: | 北京澜舟科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06Q50/18 |
代理公司: | 深圳市智享知识产权代理有限公司 44361 | 代理人: | 王琴 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律文书 案例 抽取 方法 系统 存储 介质 | ||
1.一种法律文书案例抽取方法,其特征在于:包括以下步骤:
获取待抽取法律文书文本;
基于标点符号将所述待抽取法律文书文本划分成句;
依次获取划分之后的一个句子作为当前句;
将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
训练及微调初始模型得到预测模型,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
预测模型基于文本块中前后句的字符特征预测出各文本块中属于开头、其他、结尾类别的当前句;其中,前后句的字符特征为当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征;
将开头、其他、结尾类别的当前句对应组合得到法律文书案例抽取结果。
2.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述文本块的长度小于512字符。
3.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述标点符号为句号字符。
4.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述初始模型为BERT类型的模型。
5.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述初始模型为Mengzi-BERT-Large模型、Mengzi-BERT-base模型、Mengzi-BERT-3B模型中的一种。
6.如权利要求1所述的法律文书案例抽取方法,其特征在于:当前句与所述当前句的前后句采用滑窗方式组合为一个文本块。
7.一种法律文书案例抽取系统,用于实现如权利要求1-6任一项所述的法律文书案例抽取方法,其特征在于:包括内容提取模块、数据预处理模块、预测模块以及后处理模块;所述数据预处理模块分别与所述内容提取模块以及所述预测模块信号连接,所述预测模块与所述后处理模块信号连接;其中,预测模块内设有预测模型,预测模型通过训练及微调初始模型获得,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
所述内容提取模块用于获取待抽取法律文书文本;
所述数据预处理模块用于基于标点符号将所述待抽取法律文书文本划分成句;所述数据预处理模块包括组合模块,所述组合模块用于依次获取划分之后的一个句子作为当前句,并将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
所述预测模块基于当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征给句子分类,识别出属于开头、其他、结尾类别的句子;
所述后处理模块用于将开头、其他、结尾类别的句子对应组合输出案例抽取结果。
8.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-6任一项所述的法律文书案例抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京澜舟科技有限公司,未经北京澜舟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211337416.3/1.html,转载请声明来源钻瓜专利网。