[发明专利]基于增强方式融合语法信息的深度学习文本匹配方法在审
申请号: | 202210384575.2 | 申请日: | 2022-04-13 |
公开(公告)号: | CN115034202A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 申奥运;张鹏;吴斌;张烁;张伟;严文龙 | 申请(专利权)人: | 天津大学;起硕(天津)智能科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 方式 融合 语法 信息 深度 学习 文本 匹配 方法 | ||
本发明公开了基于增强方式融合语法信息的深度学习文本匹配方法,所述文本匹配方法建立在编码层、匹配融合层和池化预测层;所述编码层用于在句对编码表示时,对句子做依存句法分析,构造依存句法树,利用深度神经网络提取出句子的依存句法信息和语义信息,将两者相加融合;所述匹配融合层用于在相似度计算时,计算句对之间编码特征的欧式距离,将内积交互矩阵与欧式距离矩阵两者对应位置相减,利用欧式距离增强内积交互过程;所述池化预测层用于加权的池化方式与最大池化方式相拼接组合的池化模块进行信息的池化特征提取,本发明在SNLI和Quora数据集上都验证了对句对精确匹配的能力。
技术领域
本发明属于文本匹配领域;尤其涉及一种使用基于增强方式融合语法信息的端到端进行问答匹配的方法。
背景技术
由于深度学习在大规模文本释义注释数据集上取得了非常显著的成果,大量的深度学习匹配模型不断涌现出来,可以归结为两种匹配架构,一种是基于句子编码的表示型匹配框架,另一种是基于注意力机制的交互型匹配架构,对于第一种架构,通过对句子的编码表示,提取出句对的整体语义表示进行分类,整体简单有效但是缺乏对两句子之间细粒度的语义交互建模,对于第二种框架,在第一种框架的基础上引入交互注意力机制对词级信息进行语义匹配建模,能够取得更好的效果。
然而,一方面,在已存在的深度学习匹配模型当中,更多的是注重对句对语义的建模,却忽视了句子的句法信息和句子内部词与词之间由句法构成的天然的相对位置关系信息。即使有一些运用了句法信息的模型,但也只是对句法进行了简单的建模,语义和句法信息特征的融合比较粗糙,不能够把握语义和句法之间重要性的平衡。例如表1当中举的两个例子,其中第一个例子中,“fish”和“eggs”位置交换并不影响句子的语义,因为两者是通过并列连词“and”联系在一起,“和”携带着重要的局部句法信息。对于第二个例子,“US”和“Canada”虽然都是地名实体,但是在句中的位置不能发生交换,因为“from”和“to”具有方向性,其携带着主从的句法信息。由此可见,对句子当中依存句法位置信息的建模至关重要。近些年,一些前人的工作也证明了句法位置信息对句对匹配建模的重要性。另一方面,内积的匹配方式只能通过向量的方向是否相似来度量句对之间的相似性,并不能捕捉到句对当中词级别的相对位置信息和句法信息的交互,句对的语义相似性体现在特征向量的方向上,而句对当中的句法信息和相对位置信息体现在特征向量的每一个数值上。
随着深度学习的不断发展以及注意力的广泛应用,近些年的一些工作大都是基于交互型的,例如在BCNN的基础上增加了注意力交互的ABCNN[1]模型,BiMPM[2]从多个不同的角度对交互匹配方式进行改进来更好的对句对进行匹配。ESIM[3]是一个非常简单高效的语义匹配模型,为了更好的捕捉到句对之间的语义交互信息,越来越多的模型都开始涌现出来(MwAN[3],CAFE[4],CSRAN[5],DIIN[6]等)。其中AF-DMN[7]提出了一个基于多层注意力机制的深度匹配网络,表明多个堆叠的注意力层可以提高模型的性能。OSOA-DFN[8]在AF-DMN上做了进一步的改进,充分利用样本本身的原始语义,使用单层自注意力机制依然可以取得一个好的结果。Yang et al.等人提出的RE2[9]模型,实现了多层丰富的特征对其,简单高效。近期,基于预训练语言模型微调程序Bert[10]在匹配任务上取得了最先进的成果,但是由于其参数过于庞大以及推理速度慢的原因,不能够直接的部署在实际的落地应用中,与上面的工作不同,我们提出了一个基于增强方式融合语法信息的深度学习文本匹配方法,在对句子编码时利用了句对的依存句法信息,并且利用欧式距离对交互匹配过程进行了增强,引导模型做更好的匹配。
[参考文献]
[1]Yin W,Schütze H,Xiang B,et al.Abcnn:Attention-based convolutionalneural network for modeling sentence pairs[J].Transactions of the Associationfor Computational Linguistics,2016,4:259-272.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学;起硕(天津)智能科技有限公司,未经天津大学;起硕(天津)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210384575.2/2.html,转载请声明来源钻瓜专利网。