[发明专利]一种基于文本内容的类案推荐方法有效
申请号: | 201910748469.6 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110442684B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李玉军;韩均雷;李泽强;贲晛烨;马宝森;张文真;邓媛洁;朱孔凡;胡伟凤 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 内容 推荐 方法 | ||
本发明涉及一种基于文本内容的类案推荐方法,该方法分为预训练部分和微调部分,预训练部分采用transformer编码器作为主结构,训练了一个中文语言模型,从其他语料库中学习中文语言知识,获得了一个高质量的语言模型。微调部分三元组模型为框架,以预处理过的司法文书为训练数据,从司法领域中学习到更多的关于判决的知识,获得了一个比较好的文本向量表示。与传统基于关键字的类案推荐方法和基于单任务神经网络的类案推荐方法相比,本发明提出的基于内容的类案推荐方法效果更好,基于语义训练模型具有更好的鲁棒性,这表明本发明提出的方法是有效的、实用的。
技术领域
本发明涉及一种基于文本内容的类案推荐方法,属于司法与自然语言处理技术交叉技术领域。
背景技术
法律与人工智能的结合在一定程度上节省了人力,其中类案推荐是该领域内的一个重要课题,其目标是根据给定的犯罪事实描述,推荐若干篇与之相似的文书。其目的是为了给司法人员提供以往相似案例,以便于司法人员更加快速准确的确定该案件所犯罪名以及所依据的法条,还可以提供以往案例判决结果以供司法人员参考。近年来,国内外涌现出了很多关于人工智能与司法领域结合的成果,极大地提高了司法人员的办案效率。
随着人工智能技术以及相关检索技术的发展,利用人工智能与自然语言处理技术对司法裁判文书处理、分析、应用已经成为司法相关领域的热点。通过基于内容的类案推荐方法,可利用犯罪事实描述,针对现有的大规模裁判文书中包含的犯罪信息,进行高效准确的相关类案推荐,同时涉及到的中间结果可应用于其他方面,如预训练了一个中文语言模型,可通用于其他中文自然语言处理任务。基于类案推荐方法,可以给司法相关人员提供历史相似案件,为司法工作提供高效、有效的参考。
基于传统人工智能的类案推荐方法虽然在一定程度上实现了类案智能推荐。但是,传统人工智能方法根据犯罪事实描述利用远程标签进行模型训练,只利用了标签中含有的信息,而忽略了除了标签以外的其他信息,如犯罪情节信息。另外,由于长文本的信息处理本身就比较困难,长距离依赖问题没有被针对解决。所以,导致了模型效果一般,推荐的内容参差不齐,无法应用于实际工作。
因此,如何较好的处理长文本的长距离依赖问题,以及如何更好的更全面的提取出犯罪事实描述中所包含的信息,是现在要解决的重要问题。
发明内容
针对现有技术不足,本发明提供了一种基于文本内容的类案推荐方法,输入待匹配的案例描述,从数据库中推荐出若干与待匹配案例相似的以往案例;
本发明使用类似于LSTM的transformer编码器,提取语义信息,来提高类案推荐的效果。
术语解释:
1、双向transformer:一种类似于双向LSTM的序列编码器,能够更好的感知上下文信息,其原理是,位置i上的词语表示上下文所有的单词都相关,这意味着每个单词都是整句话或者整个文本的综合表示的结果,每个单词经过计算以后,原来的信息在新的表达中所占的比重,与其本身在整个文本当中所占的比重成正相关。
2、词映射:是指将每个单词经过一个与单词库一样大小的词向量映射表以后,将每个数字表示的单词转换为向量表示。
3、损失:是指模型预测出来的数值与标准数字经过某种函数计算出来的差异,一般的,我们希望这个差异越小越好,即预测值越接近标准值越好。
4、反向传播更新参数:是指根据损失,模型自动调整参数的过程。如预测值比标准值大,网络就会减小权重,预测值比标准值小,网络就会增大权重。
5、自适应梯度下降优化策略,自适应是指学习率会根据模型学习情况自我调整大小,始终保持在一个合适的数值,梯度下降指的是参数会沿着与梯度相反的方向更新。
6、模型参数矩阵,是指模型内的权重以矩阵的形式存储,权重又叫做模型参数,所以称之为参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910748469.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法