[发明专利]一种法律文书要素解析方法及系统在审
申请号: | 201910695870.8 | 申请日: | 2019-07-30 |
公开(公告)号: | CN112329436A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 戴威 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06Q50/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律文书 要素 解析 方法 系统 | ||
1.一种法律文书要素解析方法,其特征在于,所述方法包括:
获取待解析的法律文书;
对所述法律文书进行分句处理,得到多条待解析语句;
逐一将所述待解析语句输入预先建立的要素解析模型进行要素解析,得到所述法律文书中每条所述待解析语句包含的要素,其中,所述要素解析模型由基于样本数据训练语言模型获得,所述语言模型用于根据预设数量的法律文本进行预训练确定所述要素解析模型的初始化模型参数。
2.根据权利要求1所述的方法,其特征在于,当所述语言模型为BERT模型,所述由基于样本数据训练语言模型获得要素解析模型的过程包括:
对所述样本数据进行文字替换以及句子拼接处理得到第一训练数据,其中,所述样本数据基于对公开的法律文书进行分句处理获得;
将所述第一训练数据作为第一BERT模型的输入,结合预设的第一损失函数和所述样本数据,训练所述第一BERT模型直至所述第一BERT模型收敛;
将收敛后的所述第一BERT模型的模型参数作为第二BERT模型的初始化模型参数;
将第二训练数据作为所述第二BERT模型的输入,结合预设的第二损失函数训练所述第二BERT模型直至所述第二BERT模型收敛,得到所述要素解析模型,其中,所述第二训练数据通过从所述样本数据中选取预设数量的法律文书进行要素标注获得。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一训练数据作为第一BERT模型的输入,结合预设的第一损失函数和所述样本数据训练所述第一BERT模型直至所述第一BERT模型收敛,包括:
将所述第一训练数据作为所述第一BERT模型的输入,得到对应文字替换位置的文字预测结果,以及得到对应句子拼接位置的句子预测结果;
使用第一子损失函数计算所述文字替换位置的实际文字和所述文字预测结果之间的文字误差,以及使用第二子损失函数计算所述句子拼接位置的实际句子与所述句子预测结果之间的句子误差;
基于所述文字误差和句子误差,结合所述第一训练数据训练所述第一BERT模型直至所述第一BERT模型收敛;
其中,所述实际文字和实际句子来源于所述样本数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述样本数据进行文字替换以及句子拼接处理得到第一训练数据,包括:
随机将所述样本数据中的文字替换为预设字符,以及随机为所述样本数据中的第一语句拼接第二语句,其中,所述第二语句为所述第一语句对应的下一句或不是所述第一语句对应的下一句。
5.根据权利要求1所述的方法,其特征在于,所述逐一将所述待解析语句作为预先建立的要素解析模型的输入进行要素解析,得到所述法律文书中每条所述待解析语句包含的要素之后,还包括:
合并每条所述待解析语句包含的要素。
6.一种法律文书要素解析系统,其特征在于,所述系统包括:
获取单元,用于获取待解析的法律文书;
处理单元,用于对所述法律文书进行分句处理,得到多条待解析语句;
预测单元,用于逐一将所述待解析语句输入预先建立的要素解析模型进行要素解析,得到所述法律文书中每条所述待解析语句包含的要素,其中,所述要素解析模型由基于样本数据训练语言模型获得,所述语言模型用于根据预设数量的法律文本进行预训练确定所述要素解析模型的初始化模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910695870.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动驾驶状态的检测方法、装置、系统以及电子设备
- 下一篇:一种相位检测器