[发明专利]法律文书案由识别方法及装置有效
申请号: | 201811062228.8 | 申请日: | 2018-09-12 |
公开(公告)号: | CN110895703B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 曾祥辉;陈冬梅 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法律文书 案由 识别 方法 装置 | ||
本发明提供的法律文书案由识别方法及装置,获取目标法律文书,利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。所述案由分类模型,充分结合了司法领域中法律文书案由类别的多层级特性,使得本发明在利用该案由分类模型,对目标法律文书所属的案由类别进行识别时,所得到识别结果的准确性更高,识别效果更好。
技术领域
本发明涉及数据处理领域,更具体的说,涉及法律文书案由识别方法及装置。
背景技术
在大数据时代,通过对一个文本进行分门别类,几乎是所有领域都需要的做的基本工作。法律文书案由识别,实际上就是为用户给出的每个法律文书找到所属的案由类别。
法律文书案由识别的传统方案,是先制定案由分类规则,再输入法律文书去匹配预先制定的案由分类规则,最后得出法律文书所属的案由类别,但这种方法费时费力且识别效果一般。在大数据时代背景下,通常可以借助机器学习的方法,利用训练好的分类模型来实现文本分类,从而节省大量的人工成本与时间成本。但是,现有的文本分类方案,并没有考虑到司法领域法律文书的特殊性,若直接采用现有的文本分类方案来识别法律文书所属的案由类别,则会导致识别结果准确性较低,识别效果较差。
因此,目前迫切需要一种能够切实、有效地提高法律文书案由识别效果的技术方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的法律文书案由识别方法及装置。
为实现上述目的,本发明提供如下技术方案:
一种法律文书案由识别方法,所述方法包括:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
优选的,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
优选的,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
优选的,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811062228.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刻蚀方法
- 下一篇:一种用于随钻测量短节的总线驱动装置