[发明专利]语义匹配模型训练方法及系统、检索系统、装置、介质在审
申请号: | 202011277803.3 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112395426A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 翁洋;王竹;李鑫;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/338;G06F16/33;G06Q50/18 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 匹配 模型 训练 方法 系统 检索系统 装置 介质 | ||
1.语义匹配模型训练方法,其特征在于,所述方法包括:
基于争议焦点分类裁判文书,选择包含预设争议焦点的若干个裁判文书作为基础样本;
定义单组训练样本为三元组样本Q、D+和D-,包括查询Q、与查询Q相关的D+和与查询Q不相关的D-;针对基础样本中的每个裁判文书,采用该裁判文书中的案情事实部分作为Q,并从该基础样本中获得符合条件的D+和D-,基于该裁判文书对应的Q、D+和D-获得得到单组训练样本;基于基础样本中的所有裁判文书得到的多个单组训练样本得到训练样本;
针对训练样本,对每个单组训练样本利用语义匹配模型分别计算Q与D+和D-的相关性得分,利用相关性得分和损失函数训练语义匹配模型;
语义匹配模型的训练步骤包括:
分词处理每个单组训练样本中的Q、D+和D-,对分词后的句子做Embedding处理得到词向量矩阵;
分别计算Q、D+和Q、D-两个得分,Q、D+和Q、D-得分均按照如下方法计算;
将词向量矩阵输入TextCNN模型提取句子中的语义特征以及语序特征,得到4个特征矩阵:矩阵a、矩阵b、矩阵c、和矩阵d;其中,矩阵a和矩阵b与Q相关,矩阵c和矩阵d与D相关;
将矩阵a分别与矩阵c和矩阵d相乘,将矩阵b分别与矩阵c和矩阵d相乘,得到4个新的特征矩阵;
对新的特征矩阵进行核函数池化操作,每个新的特征矩阵获得一个矩阵向量,拼接4个矩阵向量得到向量将向量输入全连接层得到最终的得分;
每个单组训练样本得到两个得分f+和f-,利用f+和f-和损失函数训练语义匹配模型;
将词向量矩阵输入基于unigrams和bigrames的TextCNN模型提取句子中的语义特征以及语序特征:
h∈(1,2),T∈(Q,D),m=dmodel
其中,为每个窗口经过TextCNN提取出的特征矩阵的特征向量,i对应TextCNN中不同的窗口位置,h中1,2分别对应unigrams和bigrames,Wh为TextCNN中对应的卷积核矩阵参数,Ti:i+h为对应窗口位置的词向量矩阵,为TextCNN中对应的偏置系数,Gh为Q、D中每个窗口经过TextCNN提取出的特征矩阵,dmodel为未经过TextCNN的词向量矩阵的句子长度;
将矩阵a分别与矩阵c和矩阵d相乘,将矩阵b分别与矩阵c和矩阵d相乘,得到4个新的特征矩阵,具体为:
其中,为相乘得到的新的特征矩阵中的对应第i行,第j列的元素,hq为h对应gram的Q的矩阵分别为a,b,hd为h对应gram的D的矩阵分别为c,d,为hq对应的Gh的第i个向量,为hd对应的j个向量;
对新的特征矩阵进行核函数池化操作,利用RBF核函数的特性,设μk=0,0.1,0.2,0.3…1(k∈1,2,3…11);
不同的μk代表不同的相关性,最相关为1,最不相关为0;通过核函数计算出所述4个新的特征矩阵即相关性矩阵对于不同μk的距离,每个新的特征矩阵得到一个矩阵向量,拼接4个矩阵向量得到向量并输入全连接层,得到最终的得分;
其中,wT为全连接层中的权重矩阵,b为全连接层中的偏置系数。
2.根据权利要求1所述的语义匹配模型训练方法,其特征在于,在正负样本的选择上,基于TF-IDF模型对争议焦点建模,对裁判文书所对应的争议焦点赋予IDF权重,对于任意的两个裁判文书,计算两个裁判文书的相关性,相关性高于预设阈值则认定该两篇裁判文书相关,否则认定不相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011277803.3/1.html,转载请声明来源钻瓜专利网。