[发明专利]一种基于深度学习的法律文书的相似案件智能检索系统在审
申请号: | 202010123876.0 | 申请日: | 2020-02-27 |
公开(公告)号: | CN113312474A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 邹伟;王燕妮;崔冬冬;潘相瑜;李俊玲 | 申请(专利权)人: | 北京睿客邦科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 法律文书 相似 案件 智能 检索系统 | ||
1.一种基于深度学习的法律文书的相似案件智能检索系统,其特征在于,包含以下模块:
(1)文书数据采集及预处理模块:负责法律文书数据的采集和采集后的文书的预处理。通过自行设计爬虫程序从《中国裁判文书网》上爬取,对于爬取的文书中包含html标签的内容,使用相应算法对其进行清洗,数据清洗处理后按照案件类型与案由分类存储成txt格式的文件。
(2)文书数据处理模块:负责进行分类模型训练前的数据的处理。使用fasttext深度学习算法进行分类模型训练前,需要将数据处理成模型输入所需格式,通过将带入到模型训练的文书内容进行分词然后进行所属案件类型的标识,而后才可进行分类模型的训练。
(3)长文本匹配模块:负责对输入的文书或长篇文本进行相似案件推荐。该模块有以下工作内容:1.长文本案件类型,案由类型的判断:将长文本内容带入到训练好的案件类型、案由类型的文本分类模型中,得到输入的长文本相应的案件类型、案由类型。2:相似案件的文本向量匹配:通过获取的长文本的案件类型,带入到通过文本向量模型训练后的全部;类型的法律文书向量,得到同一案件类型的法律文书向量,而后通过长文本的案由类型,进一步缩小相似案件的范围。3:相似争议焦点、本院认为的案件匹配:将长文本以及与其相似的案件带入到相似争议焦点、本院认为的模型中,得到与长文本相似争议焦点、本院认为的案件。
(4)短文本匹配模块:负责对输入的相关的描述进行相似案件的推荐。该模块有以下工作内容:1.关键词匹配打分:在对短文本进行关键词匹配,将短文本切词后进行全部文书的遍历,判断短文本切词后再文书中出现相同词个数以及次数乘积大小。2.Doc2vec匹配:通过关键词匹配打分,遍历完毕后得到短文本与所有文书之间的相似度得分,对结果进行排序,获取top n。3.word2vec匹配:训练基于全部文书的词向量模型,正则匹配相似度前几的文书的争议焦点或本院认为部分,求取正则提取每个词语的向量,再对单词的向量进行加权求平均,通过计算相互之间的距离进一步缩小相似案件的范围。
2.根据权利要求1,类案智能检索系统,其特征在于,所述模块(3)长文本匹配模块的结构具体包括:
(1)文本分类模型:在分类模型训练时,共进行两种分类模型的训练,使用到fasttext深度学习算法,一个分类模型是用于判断法律文书所属的案件类型,另一个模型是进行文书所属案由类型的判断,通过带入预处理后的法律文书数据对案件类型分类模型进行训练,接着对不同案件类型下的案由类型分类模型进行训练得到,完成了5种案件类型的分类模型的训练,将长文本输入,得到文书所属案件类型、案由类型。
(2)文本向量模型:在文本向量模型在长文本匹配模块中此时的作用是用来寻找相似文本,在此使用Doc2vec算法进行两种文章向量模型,一种是基于法律文书进行训练的,第二种是将所有法律文书中‘争议焦点或本院认为’进行正则匹配提出后,基于此进行训练,每个模型的训练都是基于案件类型分别训练了5个模型,在进行模型训练同时需要对文书进行分词处理。
(3)Doc2vec模型:在实现长文本匹配时使用到Doc2vec模型,此时模型的作用是进一步缩小与长文本相似文书的范围,以及在进行争议焦点,本院认为相似判断时其作用也是进一步缩小相似文书的范围。
(4)争议焦点,本院认为向量模型:将预处理后的全部法律文书使用fasttext分类后,使用doc2vec算法,进行提取文书本院认为、争议焦点的模型训练,从而进行输入文书与所在案件类型下所有文书相似度,从相似列表中寻找案由相同的所有文书,进一步缩小相似案件的范围。
3.根据权利要求1,类案智能检索系统,其特征在于,所述模块(4)短文本匹配模块的结构具体包括:
(1)关键词匹配打分:对短文本进行切词后,统计短文本中词语在文书出现个数,以及词语出现总数,两者乘积作为相似得分。
(2)Doc2vec匹配:通过上述的关键词匹配,接着训练全部文书的文本向量模型。
(3)Word2vec匹配:对正则匹配内容使用word2vec模型得到每个词语的向量,加权求平均后匹配争议焦点或本院认为,进一步缩小相似结果的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿客邦科技有限公司,未经北京睿客邦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010123876.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水路控制装置
- 下一篇:一种波束赋形方法以及相关装置