[发明专利]基于增强注意力机制的卷积神经网络匹配的文本识别方法有效
申请号: | 201910510842.4 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110298037B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 向阳;徐诗瑶;单光旭;杨力;刘芮辰 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F40/30;G06N3/0464 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 注意力 机制 卷积 神经网络 匹配 文本 识别 方法 | ||
1.一种基于增强注意力机制的卷积神经网络匹配的文本识别方法,其特征在于,该方法包括以下步骤:
步骤1:对输入文本进行预处理,并根据文本语料预训练得到初始词向量;
步骤2:利用初始词向量将输入文本中的句子转化为由初始词向量组成的矩阵;
步骤3:通过用于增加文本句子间交互信息的带有增强注意力机制的卷积神经网络对矩阵进行处理并得到低维度句向量;
步骤4:对输入文本的句子各自对应低维度句向量进行匹配,并最终对带有匹配结果的输入文本与数据库中的数据进行识别并输出数据库中对应识别文本;
所述步骤3中的增强注意力机制包括多窗口的词向量注意力编码、注意力卷积和多视角的相似度计算层;
所述多窗口的词向量注意力编码具体包括:在卷积神经网络的卷积操作之前,对词向量进行增强注意力的编码,使用不同大小的窗口获取词向量上下文的信息,并计算每个词向量与另一个句子的传统注意力向量,利用相关性度量,在原始词向量中加入一部分上下文以及句子间的相关信息以增强词向量,使其既包含本身的信息又包含另一个句子的有用信息;
所述注意力卷积具体包括:在原始上下文特征的基础上加入了另一个句子与之相关的最终的注意力向量以及多视角的匹配向量以使得在句子编码的过程中,融合了另一个句子的信息,所述匹配向量是对两个句子进行多角度的匹配,具体选择了三种匹配策略应用于模型中,分别为全匹配,注意力匹配和最大注意力匹配,表示将向量映射到l=20个视角的可训练的权重,每一行控制不同的角度,对于全匹配,句子X的每个词向量与句子Y的向量表示进行比较,来获取全局的信息,使用句子中所有词向量的平均值来表示句子Y的向量:
对于注意力匹配和最大注意力匹配,将词向量与句子Y对应的传统注意力向量和最大注意力向量进行匹配:
所述最终的注意力向量为:
式中,表示最终的注意力向量,表示传统注意力向量,表示最大注意力向量,表示词向量,-表示元素级的减法,·表示元素级的乘法;
最终连接这三类匹配向量,得到多视角匹配向量为:
式中,表示多视角的匹配向量,表示全局信息匹配向量,表示注意力匹配向量,表示最大注意力匹配向量;
所述多视角的相似度计算层具体包括:将各种卷积核得到的卷积向量进行相似度计算,得到多个不同视角的相似度后通过深度卷积网络对其进行提取得到相似度特征,利用原卷积操作得到的向量最大池化的结果与相似度特征拼接以得到最终句向量。
2.根据权利要求1所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法,其特征在于,所述的步骤1中的预处理包括对句子进行分词和去除停用词,所述步骤1中的预训练包括将经过预处理的文本输入至语言模型中得到初始词向量。
3.根据权利要求1所述的一种基于增强注意力机制的卷积神经网络匹配的文本识别方法,其特征在于,所述步骤4中的对输入文本的句子各自对应低维度句向量进行匹配按照句子匹配的具体任务分为两种:
种类1:对于句子匹配中的分类问题,将两个句子向量拼接起来形成新的向量,并通过多层全连接层进行特征提取,最后一层神经元的个数为分类的类别数,最后输出分类结果,其对应的描述公式为:
其中,yi表示正确的标签,表示预测的标签值,N为自然数;
种类2:对于句子匹配中的问题-答案对相关性排序任务,直接计算两个句子向量间的余弦相似度作为最终的预测结果,并按照相似度对候选答案进行排序并输出排序结果,其对应的描述公式为:
其中,M取0~1内表示边界值,表示正确答案,表示错误答案,rQ表示问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910510842.4/1.html,转载请声明来源钻瓜专利网。