[发明专利]一种法律文书案例抽取方法、系统和存储介质有效
申请号: | 202211337416.3 | 申请日: | 2022-10-28 |
公开(公告)号: | CN115391496B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 华菁云;王宇龙;周明 | 申请(专利权)人: | 北京澜舟科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06Q50/18 |
代理公司: | 深圳市智享知识产权代理有限公司 44361 | 代理人: | 王琴 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律文书 案例 抽取 方法 系统 存储 介质 | ||
本发明涉及法律文书案例抽取技术领域,特别涉及一种法律文书案例抽取方法、系统和存储介质,本发明的法律文书案例抽取方法包括以下步骤:获取待抽取法律文书文本;将待抽取法律文书文本划分成句;获取预测模型;通过预测模型预测出属于开头、其他、结尾类别的句子;将开头、其他、结尾类别的句子对应组合得到法律文书案例抽取结果。本发明通过预测模型给待抽取法律文书文本中的句子分类,然后再根据句子的类别对应组合得到案例抽取结果,可以从长文本中抽取出任意长度的案例信息文本,规避了预测模型的固定长度的输出文本字符限制,能够使用户获得更准确、丰富的信息。本发明还提供一种法律文书案例抽取系统与存储介质。
技术领域
本发明涉及法律文书案例抽取技术领域,特别涉及一种法律文书案例抽取方法、系统和存储介质。
背景技术
目前,在案例抽取中采用的主流方法是使用自然语言处理的预训练模型如BERT抽取对应结构化文本,但有一个弊端是BERT相关模型仅支持小于固定长度(512字符)的文本的输入、小于固定长度(512字符)的文本的输出;并且,学术界多关注于对长文本的理解这一阶段,而下游任务的输出则是短文本(如open-domain的QA任务)或标签(如文档分类任务),针对上下文和答案都为长文本的情况,学术界研究成果较少,该问题也是自然语言处理领域的一大难题。然而,在真实业务中,尤其是对法律文书进行案例抽取时,待抽取的公告文本通常都会超过512字符长度,这往往会导致文本信息的丢失及抽取不准确;此外,抽取得到的短文本片段化,无法提供足够丰富的情报信息给用户,从而导致用户难以获取精准、丰富的案例信息。
发明内容
为了从长文本中抽取得到长文本结果,本发明提供了一种法律文书案例抽取方法、系统和存储介质。
本发明解决技术问题的方案是提供一种法律文书案例抽取方法,包括以下步骤:
获取待抽取法律文书文本;
基于标点符号将所述待抽取法律文书文本划分成句;
依次获取划分之后的一个句子作为当前句;
将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
训练及微调初始模型得到预测模型,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
预测模型基于文本块中前后句的字符特征预测出各文本块中属于开头、其他、结尾类别的当前句;其中,前后句的字符特征为当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征;
将开头、其他、结尾类别的当前句对应组合得到法律文书案例抽取结果。
优选地,所述文本块的长度小于512字符。
优选地,所述标点符号为句号字符。
优选地,所述初始模型为BERT类型的模型。
优选地,所述初始模型为Mengzi-BERT-Large模型、Mengzi-BERT-base模型、Mengzi-BERT-3B模型中的一种。
优选地,当前句与所述当前句的前后句采用滑窗方式组合为一个文本块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京澜舟科技有限公司,未经北京澜舟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211337416.3/2.html,转载请声明来源钻瓜专利网。