[发明专利]一种基于知识增强和知识迁移的句子语义相关度判断方法在审
申请号: | 202011221328.8 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112417884A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 徐玲;苏锦钿 | 申请(专利权)人: | 广州平云信息科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/237;G06N5/02 |
代理公司: | 广东省畅欣知识产权代理事务所(普通合伙) 44631 | 代理人: | 耿佳 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 增强 迁移 句子 语义 相关 判断 方法 | ||
1.一种基于知识增强和知识迁移的句子语义相关度判断方法,其特征在于:判断方法的具体步骤为;
步骤一:对目标任务语料集中的所有句子语义相关度进行归一化处理,使得统一为区间[0,1]中的值,具体的归一化公式为:round((y-min)/(max-min),4),其中:round表示四舍五入并取小数点后4位,y表示具体某一个句子对的原始相关度,max和min分别表示该任务语料集中所有句子相关度的最大值和最小值;
步骤二:根据目标任务语料集中已标注的训练数据和验证数据,通过一定的策略构造相应的无标注训练语料,具体来说,若已标注的数据中句子对的语义相关度在区间(0.5,1]中,则在待训练语料中该句子对为相邻关系,即为同一段落,同时按50%的概率对调两个句子的先后顺序;若语义相关度在区间[0,0.5],则在待训练语料中将句子对划分为两个独立的段落,并通过空白行进行相隔,同时按50%的概率对调句子的先后顺序;
步骤三:在预训练BERT模型的基础上,利用步骤二中构造的任务相关语料及BERT中的MLM(MaskedLanguageModel)和NSP(NextSentencePrediction)训练目标对BERT进行训练,目的是在预训练BERT的基础上进一步增强任务相关的领域知识,并得到相应的TBERT模型;
步骤四:对于待判断的两个句子,一方面构造句子对作步骤三中TBERT的输入,并将TBERT中最后一层的[CLS]标志所对应的词向量作为句子对的全局上下文信息及语义关系的词向量表示;
步骤五:使用一个孪生TBERT网络分别单独学习各个句子的语义表示,并将TBERT中最后一层的[CLS]标志所对应的词向量作为各个句子的局部语义向量表示,同时通过绝对值运算和对应元素相乘运算等距离函数分别计算两个句子的语义距离关系,从而得到包含两个句子之间距离关系的词向量,并与步骤四中句子对的语义词向量表示进行合并,从而得到最终的句子语义相关度表示词向量;
步骤六:通过一个全连接网络层对步骤五中的句子语义相关度词向量进行维度转换,并最后利用sigmoid函数得到最终的句子相关度结果,同时根据均方误差MSE(MeanSquared Error)作为损失函数对模型中的待训练参数进行反向调整。
2.根据权利要求1所述的一种基于知识增强和知识迁移的句子语义相关度判断方法,其特征在于:基于知识增强和知识迁移的句子语义相关度判断方法是在一个任务相关预训练方法及一个多层神经网络中完成的,步骤一和步骤二在该预训练方法中完成,步骤三在该多层网络的第一层输入层中完成,步骤四在第二层BERT层中完成,步骤五在第三层距离层中完成,步骤六在第四层输出层中完成。
3.根据权利要求2所述的一种基于知识增强和知识迁移的句子语义相关度判断方法,其特征在于:基于知识增强和知识迁移的句子语义相关度判断方法为一个三阶段的方法,即预训练-任务相关预训练-微调,任务相关预训练方法通过充分利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料,并对预训练BERT语言进行再训练,目的是进一步增强任务相关的知识并得到包含领域知识的TBERT模型;多层网络模型通过利用TBERT一方面学习句子对的全局上下文信息以及相关性;另一方面通过一个孪生TBERT分别学习各个句子的局部语义,并结合距离函数计算句子之间的相关性,最后合并得到最终的句子语义相关度表示。
4.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法,其特征在于:步骤一中针对不同语料集中可能存在的多种不同语义相关度表示,利用归一化公式将语义相关度表示统一转化为区间[0,1]上的实数表示,其中0表示完全不相关,1表示完全相同,数值越大,表示相关度越强。
5.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法,其特征在于:步骤二为任务相关的预训练方法,通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料后,对预训练语言模型BERT进行再训练,从而得到了增强任务知识的预训练语言模型TBERT。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州平云信息科技有限公司,未经广州平云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011221328.8/1.html,转载请声明来源钻瓜专利网。