[发明专利]基于知识蒸馏的信息检索方法有效

申请号：	202110534072.4	申请日：	2021-05-17
公开（公告）号：	CN113312548B	公开（公告）日：	2022-05-03
发明（设计）人：	鲁伟明;朱堂灿;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06N5/02;G06N20/10
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于知识蒸馏信息检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于知识蒸馏的信息检索方法，其特征在于，包括以下步骤：

1)训练教师模型：基于交叉熵损失函数，利用训练集T来训练教师模型；具体步骤为，

训练集T为其中Q_i表示查询，p_i和n_i为正负例，N为总的查询数量；首先，选择教师模型为BERT-CAT模型，则教师模型计算查询Q与段落d之间相关性的评分公式为：

Teacher(Q，d)＝BERT-CAT(Q，d)＝BERT([CLS；Q；SEP；d])₁*W

其中，BERT是一种基于Transformer的双向编码表示语言模型，CLS和SEP表示BERT中的特殊词条，“；”表示拼接操作，下标1表示取CLS词条，W表示一个权重矩阵；

之后，对训练集T中每个查询及其所对应正例和负例的三元组，使用该教师模型计算正例得分P_i以及负例得分N_i：

P_i＝Teacher(Q_i，p_i)

N_i＝Teacher(Q_i，n_i)

再通过正负例得分计算相应的交叉熵损失：

最后通过最小化交叉熵损失来优化教师模型，训练得到最终的教师模型；

2)训练集段落重排序：使用步骤1)训练后的教师模型，对训练集T_old中每个查询所对应的段落集进行相关性重排序，得到排序π_T，并用重排序后的段落集构建新训练集T_new；具体步骤为，

利用教师模型对训练集T_old进行重排序；

基于步骤1)所训练的教师模型Teacher，对于训练集T_old中每个查询Q所对应的一个段落集D＝{d₁，d₂，...，d_l}，使用模型Teacher对所有段落进行相对于查询Q的打分：

S＝Teacher(Q，D)＝{s₁，s₂，...，s_l}

其中，s_i＝Teacher(Q，d_i)，之后根据每个段落得分的高低对所有段落进行重排序，得到一个新的有序的段落集D_r＝{d_r1，d_r2，...，d_rl}，其中s_r1＞s_r2＞…＞s_rl，所有查询对应的有序段落集构成新训练集T_new；

3)训练学生模型：利用训练集T，计算学生模型的交叉熵损失L₁；然后，利用学生模型，对训练集T_new中每个查询所对应的段落集进行相关性重排序，得到排序π_S，再利用列表置换损失函数计算π_T与π_S之间的差异损失L₂；最后用L₁和L₂的加权和作为学生模型的最终损失L，并通过最小化L来训练学生模型；具体步骤为；

首先，选择BERT-DOT模型和ColBERT模型作为学生模型Student；

BERT-DOT模型计算查询Q与段落d之间相关性的评分公式为：

r_q＝BERT([CLS；Q])₁*W

r_d＝BERT([CLS；d])₁*W

BERT-DOT(Q，d)＝r_q·r_d

其中，BERT是一种基于Transformer的双向编码表示语言模型，CLS表示特殊词条，“；”表示拼接操作，下标1表示取CLS词条，W表示一个权重矩阵，·表示内积运算；

ColBERT模型计算查询Q与段落d之间相关性的评分公式为：

r_q＝BERT([CLS；Q；rep(MASK)])₁*W

r_d＝BERT([CLS；d])₁*W

其中，BERT是一种基于Transformer的双向编码表示语言模型，CLS表示特殊词条，“；”表示拼接操作，rep(MASK)表示多个MASK词条拼接而成的词条集，下标1表示取CLS词条，W表示一个权重矩阵，·表示内积运算；

之后，对训练集T中每个查询及其所对应正例和负例的三元组，使用学生模型计算正例得分P_i以及负例得分N_i：

P_i＝Student(Q，p_i)