[发明专利]法律文书案由识别方法及装置有效
申请号: | 201811062228.8 | 申请日: | 2018-09-12 |
公开(公告)号: | CN110895703B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 曾祥辉;陈冬梅 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法律文书 案由 识别 方法 装置 | ||
1.一种法律文书案由识别方法,其特征在于,所述方法包括:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型基于所述各层级案由类别依次进行迭代训练得到的,所述多层级案由类别用于通过案由类别的多层级特性,使得所述案由分类模型融入了司法领域法律文书案由类别的特点;
其中,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型;
其中,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
2.如权利要求1所述的方法,其特征在于,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
3.如权利要求2所述的方法,其特征在于,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
4.如权利要求2所述的方法,其特征在于,在所述获取目标法律文书之后,所述方法还包括:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
5.如权利要求1所述的方法,其特征在于,所述预置的分类模型包括:支持向量机SVM分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811062228.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刻蚀方法
- 下一篇:一种用于随钻测量短节的总线驱动装置