[发明专利]基于增强注意力机制的卷积神经网络匹配的文本识别方法有效
申请号: | 201910510842.4 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110298037B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 向阳;徐诗瑶;单光旭;杨力;刘芮辰 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F40/30;G06N3/0464 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 注意力 机制 卷积 神经网络 匹配 文本 识别 方法 | ||
本发明涉及一种基于增强注意力机制的卷积神经网络匹配的文本识别方法,该方法包括:步骤1:对输入文本进行预处理,并根据文本语料预训练得到初始词向量;步骤2:利用初始词向量将输入文本中的句子转化为由初始词向量组成的矩阵;步骤3:通过带有增强注意力机制的卷积神经网络对矩阵进行编码并生成低维度句向量;步骤4:获取两两句子各自对应低维度句向量的相关性,并根据相关性结果对整体文本进行识别。与现有技术相比,本发明避免了两个句子在句子建模的过程中完全独立的缺点,在卷积神经网络获取局部上下文信息的基础上加入另一句子中相关的注意力信息,使两个句子间尽早的进行交互,并且结合了不同大小的卷积核所得到的多粒度信息。
技术领域
本发明涉及人工智能与自然语言处理技术领域,尤其是涉及一种基于增强注意力机制的卷积神经网络匹配的文本识别方法。
背景技术
随着大数据时代的到来,每天都会产生海量的数据,这些数据中隐藏着大量的无关数据。使用人工的方式一一查看这些数据显然已经是不可能的。如何从这些数据中快速的过滤掉垃圾信息、迅速搜索到用户需要的内容,成为了人们越来越急迫的问题。目前,各种深度学习的技术已经广泛应用于各类自然语言处理任务中。句子匹配任务,是实现自然语言处理的基础任务。所谓句子匹配,就是计算出两个句子在语义上的关系。对论文进行抄袭检测,智能客服中的问句配对,基于答案库的简单的问答系统,使用搜索引擎进行信息检索,根据用户需求从海量文本中找到符合用户需求的相关文本等等应用都是基于文本间的语义匹配实现的。所以掌握文本相似度计算的技术,是完善自然语言处理问题的关键。
句子匹配主要包括句子相似度计算、问答匹配和自然语言推理三类。句子相似度计算用于判断两个句子是否表达相同的含义或意图。问答匹配通过问题和候选答案的相关性计算,对候选答案进行排序。自然语言推理判断前提和假设文本间是否具有蕴含关系。传统的句子匹配模型包括词袋模型和特征工程等,通常依赖于句子的词汇特征而忽略了句子的语义。
近年来,随着大规模数据集的不断发展和计算机处理能力的快速提升,深度神经网络得到了越来越广泛的应用,并且取得了很好的效果。当前对句子对进行建模的神经网络模型通常使用与训练好的词向量作为输入,通过结构和权重完全相同的孪生网络将两个句子词向量转换为低维的句子向量,然后再计算出两个句子向量间的相关性。但是这种方法使得两个句子的句子向量在生成的过程中完全独立。为了增加句子间的交互,模型逐渐引入了注意力机制。但是目前大部分注意力机制都应用于循环神经网络中,其在卷积神经网络中的表现并没有达到像循环神经网络那样惊人的效果。虽然循环神经网络在自然语言处理中的效果通常要比卷积神经网络好,但是它对时间数列数据的处理无法并行化,导致速度上要慢于卷积神经网络。所以,对卷积神经网络的研究依旧是非常必要的。
注意力机制在卷积神经网络中的应用主要是在注意力池化上。所谓注意力池化,是计算卷积操作后得到的两个句子中各个单词的向量之间的相似度得分作为注意力权重,再对句子中各个单词的卷积向量进行注意力权重的加权求和得到句子向量。这种注意力机制的方法能够使得两个句子中更重要的词获得更大的权重,但是实际上并没有加入另一个句子实质性的交互信息。另外,在句子匹配任务中,相比池化操作,用于提取出特征的卷积操作更重要。但是目前常见的注意力机制都忽略了卷积操作。所以,注意力机制在卷积神经网络中,没有发挥其应有的效果,导致实际在论文查重、搜索引擎和智能客服系统中应对复杂文本的处理上与数据库中的识别配对准确度仍不够高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于增强注意力机制的卷积神经网络匹配的文本识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于增强注意力机制的卷积神经网络匹配的文本识别方法,该方法包括以下步骤:
步骤1:对输入文本进行预处理,并根据文本语料预训练得到初始词向量;
步骤2:利用初始词向量将输入文本中的句子转化为由初始词向量组成的矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910510842.4/2.html,转载请声明来源钻瓜专利网。