[发明专利]一种基于语义相似度的类案推荐方法有效
申请号: | 202111019717.7 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113688635B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 李佳静;郝亚鑫;尤红艳;张鑫洁;王鹏;贺翔;聂福回 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F18/241;G06F18/22;G06F16/33;G06Q50/18 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 推荐 方法 | ||
1.一种基于语义相似度的类案推荐方法,其特征在于,包括以下步骤:
步骤1、获得多个法律文书,进一步得到其中的案件文本;
步骤2、对案件文本进行预处理,并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果,划分后的案件文本形成案件样本集合;
步骤3、从案件文本的裁判结果中抽取罪名,将罪名作为类别,对案件文本划分出的事实描述进行分类;采用步骤2的案件样本集合训练文本分类模型;
步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;语义相似度样本集合包括多个语义相似度样本,两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本;
步骤4中,计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度;总体相似度的计算方法如下:
(1)罪名的相似度simn:
罪名从裁判结果中抽取,其中NameA是案件文本A中的罪名,NameB是案件文本B中的罪名;
(2)法条法款的相似度sima:
法条法款从法律条款中抽取,其中,LawA是案件文本A中的法律条款集合,LawB是案件文本B中的法律条款集合;
(3)判罚结果的相似度simt:
判罚结果包括四类因素:主刑,缓刑,剥夺政治权利和罚金;判罚结果从裁判结果中抽取;其中:
主刑的相似度simY:
YA是案件文本A中的判罚年数,YB是案件文本B中的判罚年数;
缓刑的相似度simH:
HA是案件文本A中的缓刑年数,HB是案件文本B中的判缓刑年数;
剥夺政治权利的相似度simZ:
ZA是案件文本A中的剥夺政治权利年数,ZB是案件文本B中的剥夺政治权利年数;
将剥夺政治权利终身转换为剥夺政治权利10年;
罚金的相似度simM:
MA是案件文本A中的罚金,MB是案件文本B中的罚金;
(4)总体相似度simtotal:
simtotal=simn*(sima+simt)/2;
步骤5、采用语义相似度样本集合训练语义相似度计算模型;
步骤6、获得用户输入的查询文本,并对其进行预处理;
步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类;
步骤8、根据步骤7的分类结果,使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本;
或,根据步骤7的分类结果,对查询文本所对应类别中的案件文本的事实描述进行筛选,筛选出相似文本;使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度,并推荐相似度数值最高的若干案件文本。
2.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤8中,采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。
3.根据权利要求1所述的一种基于语义相似度的类案推荐方法,其特征在于,步骤1中获得法律文书的途径是使用网页爬虫获得,或由用户提供;在获得法律文书后,将其转换为文本,每个文本就是一个案件文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111019717.7/1.html,转载请声明来源钻瓜专利网。