[发明专利]一种基于文本内容的类案推荐方法有效
申请号: | 201910748469.6 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110442684B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李玉军;韩均雷;李泽强;贲晛烨;马宝森;张文真;邓媛洁;朱孔凡;胡伟凤 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于文本内容的类案推荐方法,该方法分为预训练部分和微调部分,预训练部分采用transformer编码器作为主结构,训练了一个中文语言模型,从其他语料库中学习中文语言知识,获得了一个高质量的语言模型。微调部分三元组模型为框架,以预处理过的司法文书为训练数据,从司法领域中学习到更多的关于判决的知识,获得了一个比较好的文本向量表示。与传统基于关键字的类案推荐方法和基于单任务神经网络的类案推荐方法相比,本发明提出的基于内容的类案推荐方法效果更好,基于语义训练模型具有更好的鲁棒性,这表明本发明提出的方法是有效的、实用的。 | ||
搜索关键词: | 一种 基于 文本 内容 推荐 方法 | ||
【主权项】:
1.一种基于内容的类案推荐方法,其特征在于,包括步骤如下:(1)将非结构化数据构造成结构化数据:利用规则匹配的方式抽取所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7∶3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;(2)模型预训练:所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;B、将所述词映射层的输出输入所述双向transformer层,所述双向transformer将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;C、将所述双向transformer层输出的特征向量输入所述向量压缩层,将所述双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;D、将所述向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数;(3)微调阶段:将步骤(2)模型预训练完成得到的模型保存,丢弃所述损失层;重新设计下游模型,即添加合页误差计算层,将合页误差计算层添加在所述向量压缩层之后,以向量压缩层的输出为输入,输出为与数据标签的误差,所述合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例、相似案例1、相似案例2;目标案例、相似案例1、相似案例2都是一段犯罪事实描述,包括:若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;(4)测试阶段:将步骤(3)微调阶段训练完成的模型保存,丢弃所述合页误差计算层,所述向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910748469.6/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法