[发明专利]一种基于争议焦点的类案检索方法及系统及装置及介质在审
申请号: | 202010785891.1 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111737420A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 李鑫;王竹;翁洋;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06Q50/18;G06N20/00 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 争议 焦点 检索 方法 系统 装置 介质 | ||
本发明公开了一种基于争议焦点的类案检索方法及系统及装置及介质,涉及自然语言处理语义相似度领域,所述方法包括:争议焦点提取处理步骤、分词处理步骤、词向量获得处理步骤、句向量获得处理步骤、最终争议焦点句向量获得处理步骤、存入索引库步骤、待检索的争议焦点对应的最终争议焦点句向量P获取步骤以及相应的检索步骤,获得topK相似争议焦点对应的案例,本发明使用了自然语言处理领域的用来产生词向量的相关模型来构造争议焦点的句向量,该构造方法使用非监督的方式,去除了人工标注相似句子的复杂性,不仅方法简单,同时也是一个基于语义检索、检索速度快和检索结果准确的方法;提高基于争议焦点的类案检索的召回率和精确率。
技术领域
本发明涉及自然语言处理语义相似度领域,具体地,涉及一种基于争议焦点语义向量化的类案检索方法及系统及装置及介质。
背景技术
目前基于争议焦点的类案检索方式主要使用的是传统的关键字技术或者tf-idf技术,但是基于关键字的检索只能召回具有相同关键字的争议焦点所对应的案例,不同关键字的权重也只是基于tf-idf来赋值;事实上,相同语义的争议焦点对应的文字表达会多种多样,或者争议焦点文字上的相似有可能语义不尽相同;因此仅仅使用关键字技术并不能很好的表征争议焦点的语义,导致基于争议焦点检索出的案例并不能为法官判案提供准确有效的辅助信息。
发明内容
本发明目的是为了实现基于争议焦点语义相似性的类案检索,通过本发明中的方案可以检索出不同表达、不同文字描述的相似争议焦点,提高基于争议焦点的类案检索的召回率和精确率,辅助法官判案,解决类案不同判决的问题。
为实现上述发明目的,本发明提供了一种基于争议焦点的类案检索方法,所述方法包括:
争议焦点提取处理:从若干份裁判文书中提取出相应的争议焦点,构建提取出的争议焦点与对应裁判文书之间的映射关系;
分词处理:对争议焦点语句进行分词,获得争议焦点分词后的词语;
词向量获得处理:基于争议焦点分词后的词语构造训练语料,基于训练语料训练词向量,获得训练后的词向量;
句向量获得处理:基于训练后的词向量和争议焦点语句分词后的词语统计信息,构造争议焦点语句对应的句向量;
最终争议焦点句向量获得处理:基于争议焦点语句对应的句向量构成矩阵,矩阵的每一列为争议焦点语句对应的句向量,矩阵的行为争议焦点的个数,使用奇异值分解方法得到该矩阵的第一奇异向量,将每个争议焦点句向量减掉其在第一奇异向量上的投影得到最终争议焦点句向量;这样处理的目的是为了移除句子的共有信息,使保留下来的句子向量更能够表征本身并与其它句子向量产生差距;
将获得的最终争议焦点句向量存入到索引库中,建立最终争议焦点句向量与争议焦点的对应关系;
获得待检索的争议焦点,将待检索的争议焦点同理进行上述分词处理、词向量获得处理、句向量获得处理和最终争议焦点句向量获得处理,获得待检索的争议焦点对应的最终争议焦点句向量P;
从索引库中检索出与最终争议焦点句向量P相似的若干个最终争议焦点句向量1-n,n为大于1的整数,计算最终争议焦点句向量1-n和最终争议焦点句向量P的余弦相识度并排序,得到topK相似争议焦点对应的案例。
本发明中的方法基于当前案情的争议焦点,使用本发明的基于争议焦点语义向量化检索方法,把与当前检索案情争议焦点相似度为topK的争议焦点所对应的案例展示给法官,为法官提供参考,辅助法官判案,解决类案不同判决的问题。
优选的,本方法中所述分词处理具体包括:
构造法律领域的词汇表,基于法律领域的词汇表对争议焦点语句进行分词,获得争议焦点分词后的词语。因通用的分词工具对很多法律场景的词汇并不能准确、有语义的分词,本方法采用构造法律领域的词汇表来保障词汇的准确和有语义的分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010785891.1/2.html,转载请声明来源钻瓜专利网。