[发明专利]一种基于案情描述的类案推送方法与装置在审
申请号: | 202010384979.2 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111581353A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 王功明;谢超;王建华;张尧臣 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30;G06Q50/18;G06N3/04 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 郗艳荣 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 案情 描述 推送 方法 装置 | ||
1.一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:
S1:提取判决书案情描述
借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;
S2:构建判决书案情描述潜在语义空间
为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;
S3:检索和推送判决书
将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。
2.根据权利要求1所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,先对每份判决书文本进行预处理,生成每份判决书段落的向量化编码,然后提取每份判决书所有段落的向量化特征,训练基于多层感知机的案情描述判定模型,使用模型提取待处理判决书的案情描述即可。
3.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,
设判决书有m个段落,分别表示为P1、P2、……、Pm,对段落Pi进行向量化编码,其中i为不大于m的自然数;设段落Pi包含n个句子,分别表示为Si1、Si2、……、Sin,对句子Sij进行向量化编码,其中j为不大于n的自然数;判决书所有段落向量化编码结束后,返回判决书段落向量化编码。
4.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对句子Sij进行向量化编码,包括以下步骤:
S111:使用Word2Vec对分词词汇进行向量化编码;
S112:使用Bi-LSTM处理词汇向量化序列;
S113:从处理结果中提取句子Sij的向量化编码;
S114:返回句子Sij的向量化编码。
5.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对段落Pi进行向量化编码,是当段落Pi的n个句子全都完成向量化编码后,使用Bi-LSTM处理句子向量化序列,并从处理结果中提取段落Pi的向量化编码。
6.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,将每个段落的向量化特征和判定结果送入多层感知机,通过训练得到案情描述判定模型;具体包括以下步骤:
S121:初始化多层感知机参数;
S122:将所有判决书段落的向量化特征送入多层感知机输入层;
S123:将对应判决书段落的判定结果送入多层感知机输出层;
S124:根据收敛条件训练多层感知机模型;
S125:返回多层感知机模型权重。
7.根据权利要求1所述的基于案情描述的类案推送方法,其特征在于:所述步骤S2中,包括以下步骤:
S21:构建“词汇-案情描述”频率矩阵;
S22:构建“词汇-案情描述”TFIDF矩阵;
S23:对“词汇-案情描述”TFIDF矩阵进行奇异值分解;
S24:根据奇异值分解结果构建潜在语义空间。
8.根据权利要求1所述的基于案情描述的类案推送方法,其特征在于:所述步骤S3中,包括以下步骤:
S31:接收用户的查询语句;
S32:将查询语句转换为查询向量;
S33:将查询向量映射到潜在语义空间;
S34:在潜在语义空间计算映射结果和案情描述的相关性;
S35:将TopK案情描述对应判决书推荐给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010384979.2/1.html,转载请声明来源钻瓜专利网。