[发明专利]一种基于文本内容的类案推荐方法有效
申请号: | 201910748469.6 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110442684B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李玉军;韩均雷;李泽强;贲晛烨;马宝森;张文真;邓媛洁;朱孔凡;胡伟凤 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 内容 推荐 方法 | ||
1.一种基于内容的类案推荐方法,其特征在于,包括步骤如下:
(1)将非结构化数据构造成结构化数据:
利用规则匹配的方式抽取所需信息,实现数据结构化,构造成结构化数据集;所需信息包括犯罪事实描述与嫌疑人基本信息数据,嫌疑人基本信息数据包括年龄、性别、捕前职业信息;
将结构化数据集不重叠的划分为训练数据集和测试数据集,训练数据集和测试数据集的比例为7:3,即训练数据集占结构化数据集的70%,测试数据集占结构化数据集的30%;
(2)模型预训练:
所述模型包括依次连接的词映射层、双向transformer层、向量压缩层、损失层、反向传播更新参数层,包括:
A、所述词映射层将输入的犯罪事实描述的每个词映射成固定维度的向量,每个词都有一个单独的向量表示;
B、将所述词映射层的输出输入所述双向transformer层,所述双向transformer层将输入经过计算以更好的表达文本语义信息,输出的形式与输入一样;
C、将所述双向transformer层输出的特征向量输入所述向量压缩层,将所述双向transformer层输出的特征向量压缩成一维向量,该一维向量即为一个句子的语义表示;
D、将所述向量压缩层的输出输入所述损失层,该一维向量经过两层全连接神经网络转化为长度和数据标签一样形式的数据,计算输出与数据标签的误差;
E、所述反向传播更新参数层采用自适应梯度下降优化策略更新所述模型的参数;
对于所述向量压缩层的基础结构是self-attention结构,如式(Ⅰ)、(Ⅱ)所示:
A=Attention(Q,K,V)=sigmoid(QTKVT) (Ⅰ)
R=Reduce(A,aixs=-2) (Ⅱ)
式(Ⅰ)表示attention结构,Q、K、V是所述双向transformer层的输出,即所述向量压缩层的输入,Q,K,V三者是query,key,value的简写,分别是指请求矩阵、关键值矩阵、目标矩阵,若Q、K、V三者为同一个输入的话,称之为self-attention,A代表self-attention结构的结果,为输入矩阵中每个列向量对于其他所有列向量的关注度矩阵;sigmoid是指激活函数;
公式(Ⅱ)表示将获取到的关注度矩阵进行压缩,压缩方式为每一列对应位置的元素相加,其输出结果为一个一维向量,这个向量代表输入矩阵的最终压缩向量;R代表所述向量压缩层的输出,为一维向量;reduce代表将一个矩阵在第二个维度上压缩为一个一维向量;aixs代表矩阵中的轴方向;
所述双向transformer层,如公式(Ⅲ)、(Ⅳ)、(Ⅴ)所示:
hi=Attention(QWiQ,KWiK,VWiV) (Ⅳ)
Transformer(Q,K,V)=Concat(h1,...,hn)W° (Ⅴ)
式(Ⅲ)为attention公式的变体,其作用为将输入进行编码;softmax是概率化操作,其操作方式为根据每个值的大小来表示该值的概率,把所有值都限制在0-1之间,原来的值越大,概率化后的概率就越大;dk代表矩阵中向量的长度;
式(Ⅳ)为式(Ⅲ)的具体实施,hi代表执行一次式(Ⅲ)所得的结果;
式(Ⅴ)代表将式(Ⅳ)操作重复N遍,然后将得到的N个矩阵在最后一个维度上拼接在一起;Transformer(Q,K,V)为所述双向transformer层的最终输出;Concat()代表拼接操作,默认在矩阵的最后一个维度上操作;h1,...,hn代表操作了N次式(Ⅲ)所得到的结果;
(3)微调阶段:
将步骤(2)模型预训练完成得到的模型保存,丢弃所述损失层;重新设计下游模型,即添加合页误差计算层,将合页误差计算层添加在所述向量压缩层之后,以向量压缩层的输出为输入,输出为与数据标签的误差,所述合页误差计算层,采用合页损失函数计算合页误差,合页误差对于能够正确分类的样本不产生误差,对于未能正确分类的样本产生较大误差;下游模型采用三元组方式调整模型,三元组代表着使用基于对比的方式训练模型,每个输入是一个三元组,包括目标案例、相似案例1、相似案例2;目标案例、相似案例1、相似案例2都是一段犯罪事实描述,包括:
若目标案例与相似案例1的相似度大于等于目标案例与相似案例2的相似度,则定义这种情况的标签为1;若目标案例与相似案例1的相似度小于目标案例与相似案例2的相似度,则定义这种情况的标签为0;
(4)测试阶段:
将步骤(3)微调阶段训练完成的模型保存,丢弃所述合页误差计算层,所述向量压缩层的输出为最终输出向量,该向量为样本最终表示向量;
加载步骤(3)中保存的模型,对测试数据集进行采样,获得测试所用数据,将测试所用数据输入模型,依次进行分词、词向量映射、神经网络前向传播计算,输出样本最终表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910748469.6/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法