[发明专利]一种基于争议焦点的类案检索方法及系统及装置及介质在审
申请号: | 202010785891.1 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111737420A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 李鑫;王竹;翁洋;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06Q50/18;G06N20/00 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 争议 焦点 检索 方法 系统 装置 介质 | ||
1.一种基于争议焦点的类案检索方法,其特征在于,所述方法包括:
争议焦点提取处理:从若干份裁判文书中提取出相应的争议焦点,构建提取出的争议焦点与对应裁判文书之间的映射关系;
分词处理:对争议焦点语句进行分词,获得争议焦点分词后的词语;
词向量获得处理:基于争议焦点分词后的词语构造训练语料,基于训练语料训练词向量,获得训练后的词向量;
句向量获得处理:基于训练后的词向量和争议焦点语句分词后的词语统计信息,构造争议焦点语句对应的句向量;
最终争议焦点句向量获得处理:基于争议焦点语句对应的句向量构成矩阵,矩阵的每一列为争议焦点语句对应的句向量,矩阵的行为争议焦点的个数,使用奇异值分解方法得到该矩阵的第一奇异向量,将每个争议焦点句向量减掉其在第一奇异向量上的投影得到最终争议焦点句向量;
将获得的最终争议焦点句向量存入到索引库中,建立最终争议焦点句向量与争议焦点的对应关系;
获得待检索的争议焦点,将待检索的争议焦点同理进行上述分词处理、词向量获得处理、句向量获得处理和最终争议焦点句向量获得处理,获得待检索的争议焦点对应的最终争议焦点句向量P;
从索引库中检索出与最终争议焦点句向量P相似的若干个最终争议焦点句向量1-n,n为大于1的整数,计算最终争议焦点句向量1-n和最终争议焦点句向量P的余弦相识度并排序,获得topK相似争议焦点对应的案例。
2.根据权利要求1所述的基于争议焦点的类案检索方法,其特征在于,所述分词处理具体包括:
构造法律领域的词汇表,基于法律领域的词汇表对争议焦点语句进行分词,获得争议焦点分词后的词语。
3.根据权利要求2所述的基于争议焦点的类案检索方法,其特征在于:
法律领域的词汇概率计算表达式为:
,其中,p为法律领域的词汇概率,pab表示子词语a和b共现的次数,min_count是一个可设置的常数,pa是子词语a出现的次数,pb是子词语b出现的次数;
比较法律领域的词汇概率与预设概率阈值,基于比较结果判断多个相邻的子词语是否构成一个符合要求的词语。
4.根据权利要求1所述的基于争议焦点的类案检索方法,其特征在于,本方法使用Word2Vec或Glove方法来训练词向量。
5.根据权利要求1所述的基于争议焦点的类案检索方法,其特征在于,争议焦点语句的句向量为组成该语句的词语的词向量的加权平均,具体计算公式为:
其中,表示句向量,|s|表示基于词语的句子长度,为常数,p(w)表示词语在所有争议焦点中出现的频次,表示词语的词向量。
6.根据权利要求5所述的基于争议焦点的类案检索方法,其特征在于,最终争议焦点句向量的计算公式为:
;其中,为最终争议焦点句向量,为句向量,是矩阵采用奇异值分解方法得到的第一奇异向量,为的转置。
7.根据权利要求1所述的基于争议焦点的类案检索方法,其特征在于,索引库为Annoy或Faiss。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010785891.1/1.html,转载请声明来源钻瓜专利网。