[发明专利]一种基于深度度量学习的一人多案关联识别方法及系统有效
申请号: | 201911241577.0 | 申请日: | 2019-12-06 |
公开(公告)号: | CN112925877B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 马志柔;马新宇;刘杰;王帅;叶丹 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/295;G06F40/30;G06F16/35;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/047;G06N3/048;G06N3/08;G06Q50/18 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 度量 学习 一人多案 关联 识别 方法 系统 | ||
1.一种基于深度度量学习的一人多案关联识别方法,其特征在于,包括以下步骤:
获取待进行一人多案关联识别的起诉状,将其输入预先训练完成的案件要素识别模型,得到案件要素信息;
将得到的案件要素信息输入预先训练完成的案件相似度量模型,所述案件相似度量模型利用深度学习和度量学习技术计算案件要素信息与候选案件集合中的案件的文本语义相似度;
根据相似度的计算结果判断是否存在一人多案的情况,并按人建立案件关联;
所述案件相似度量模型的训练过程包括:
构造训练数据集,其中每份数据由三篇法律文书组成,以三元组集合形式存储;对于每份数据,用(d0,d1,d2)来代表该组数据,约定文书d0和d1的相似度比文书d0和d2的相似度高;
通过词向量word2vec拼接位置向量,得到案件文本的分布式向量化表示,构成案件的特征向量的初始化值,实现案件表示初始化;
通过分布式表达和神经网络结构相结合的深度度量学习方式,采用多种注意力机制与Transformer网络结构学习法律文本表示,利用Triplet Loss损失函数进行优化使得基准示例与正示例的距离小于基准示例与负示例的距离,实现案件文本的相似性计算;
所述位置向量是通过以下公式计算得到,并且在训练过程固定不变化;
其中,2i与2i+1分别表示偶数位置和奇数位置,PE2i(p)为句子第p个位置向量的第i维的值,每一维的向量都由三角函数计算,最终拼接得到p位置的d维向量;
所述根据相似度的计算结果判断是否存在一人多案的情况,并按人建立案件关联,包括:
判断当事人是否相同:如果存在身份证号,则直接判断是否同一人;如果没有身份证号,则根据姓名、性别、年龄、住址信息判断是否是同一个人;
判断案由是否相同:调用所述案件要素识别模型中的法律关系要素判别模型确定起诉状的案由,再和候选案件集合中的案件案由对比,判断是否有相同案由的案件;
判断诉求请求是否相同:调用所述案件相似度量模型判断起诉状与候选案件集合中的案件的诉讼请求描述是否相似,并设定阈值筛选出相似案件;
建立一人多案关联:利用法律业务规则从候选案件集合中判定是否同一当事人认定、是否同一案由认定、是否同一诉讼请求认定,从而以当事人为中心建立案件之间的关联。
2.根据权利要求1所述的方法,其特征在于,所述案件要素信息分为实体类要素和关系类要素;所述案件要素识别模型包含法律实体要素识别模型和法律关系要素判别模型;
所述法律实体要素识别模型,采用序列标注的方式,通过基于Bi-LSTM+CRF的命名实体识别技术实现实体类要素的自动识别;
所述法律关系要素判别模型,通过基于CNN的文本分类技术实现关系类要素的自动识别。
3.根据权利要求2所述的方法,其特征在于,所述法律实体要素识别模型包含:
编码层,用于采用word2vec模型训练获取字向量;
表征层,用于利用Bi-LSTM神经网络充分考虑上下文信息,获取当前字的上下文表征向量;
输出层,用于通过CRF过程求解,依照上下文表征向量序列得到标注序列。
4.根据权利要求2所述的方法,其特征在于,所述法律关系要素判别模型包含;
编码层,用于利用词向量word2vec和位置信息进行句子向量化表示;
卷积层,用于利用CNN对法律文本中的长度不同的句子进行数据的归一化处理;
输出层,用于利用Softmax Loss函数对整个网络优化求解,最终实现分类目的。
5.根据权利要求1所述的方法,其特征在于,通过调用待关联的法律业务系统API,并执行查询条件,查询得到候选案件文本信息,形成所述候选案件集合。
6.根据权利要求1所述的方法,其特征在于,所述法律业务规则包括:重复起诉判定规则、一人起诉多案或被诉多案判定规则、串案判定规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911241577.0/1.html,转载请声明来源钻瓜专利网。