[发明专利]司法文书段落分类方法、装置、计算机设备及存储介质在审
申请号: | 202010323653.9 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111428485A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 温凯雯;吕仲琪;顾正 | 申请(专利权)人: | 深圳市华云中盛科技股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/205;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 冯筠 |
地址: | 518000 广东省深圳市南山区粤海街道麻岭*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 司法 文书 段落 分类 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及司法文书段落分类方法、装置、计算机设备及存储介质,该方法包括获取司法文书;对司法文书进行字符切分,以得到字符矩阵;根据字符矩阵进行向量提取,以得到句子表示向量;将句子表示向量进行拼接,以得到文书表示向量;将文书表示向量输入分类模型中进行分类,以得到段落类别;反馈段落类别至终端,以供终端进行信息提取;其中,分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。本发明通过由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
技术领域
本发明涉及文本信息处理方法,更具体地说是指司法文书段落分类方法、装置、计算机设备及存储介质。
背景技术
对司法领域而言,从海量的司法案件中获取更多信息成为大数据时代迫切需求之一,然而将文本形式的司法文书结构化是后续进行高效处理、深入分析的前提。由于司法文书的严谨性与规范性,通常对司法文书的段落组成及书写方式较为固定,通过对文书进行段落划分,可以降低文书结构化,即后续文书信息提取的数据复杂度与难度,提高准确性。
目前常见的司法文书段落分类方式,主要通过规则提取实现,由于司法文书的段落组成及书写方式较为固定,可人工提炼识别规则,识别给定段落的位置。但规则提取不具有泛化能力,需要长期人工介入进行迭代矫正规则以提高提取的召回率。
因此,有必要设计一种新的方法,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供司法文书段落分类方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:司法文书段落分类方法,包括:
获取司法文书;
对所述司法文书进行字符切分,以得到字符矩阵;
根据所述字符矩阵进行向量提取,以得到句子表示向量;
将所述句子表示向量进行拼接,以得到文书表示向量;
将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈所述段落类别至终端,以供终端进行信息提取;
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。
其进一步技术方案为:所述对所述司法文书进行字符切分,以得到字符矩阵,包括:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。
其进一步技术方案为:所述根据所述字符进行向量提取,以得到句子表示向量,包括:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;
根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;
将所述句子特征按照顺序进行拼接,以得到句子表示向量。
其进一步技术方案为:所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量,包括:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。
其进一步技术方案为:所述将所述句子特征按照顺序进行拼接,以得到句子表示向量,包括:
将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华云中盛科技股份有限公司,未经深圳市华云中盛科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010323653.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种临床诊间内简易口腔正畸间接粘接托槽转移装置
- 下一篇:一种桃加工去核装置