[发明专利]一种基于循环注意力机制的文档快速扫描定性方法有效
申请号: | 201711350432.5 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108170736B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 杨维永;张宁;马超;刘凯乐;何军;赖业宁;季叶飞;朱进;从正海;朱世顺;郭靓;林学峰 | 申请(专利权)人: | 南瑞集团有限公司;国家电网公司;南京信息工程大学;国网江苏省电力有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 循环 注意力 机制 文档 快速 扫描 定性 方法 | ||
本发明公开了一种基于循环注意力机制的文档快速扫描定性方法,获取训练数据集,在预处理阶段,将整个文档转换为词向量矩阵,词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,利用回报函数得出回报值reward,训练循环神经网络,优化模型参数,测试模型准确率。本发明的方法基于注意力机制,引入了强化学习的训练方法,适应性更强,并且不需要对全文进行检索,而是通过处理文档中的局部信息,智能快速的预测出文档中特定的位置,在有限的次数内,快速扫描探索找出最能够代表文档特征的句子,即分类概率最大的句子,这些句子能够最大化的表示该文档的类型。
技术领域
本发明涉及自然语言处理和文档分类技术领域,特别涉及一种基于循环注意力机制的文档快速扫描定性方法。
背景技术
自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习,比如Word Embedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用,这已经是目前主流的研究方向。目前,在文档定性分类方面,最经典的结构就是CNN(卷积神经网络),它的结构比较简单,使用长度不同的filter(滤波器)对文档矩阵进行卷积,filter的宽度等于词向量的长度,然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作,最后每一个filter对应一个数字,把这些filter拼接起来,就得到了一个表征该句子的向量,最后的预测都是基于该句子的。该模型作为一个经典的模型,是很多其他领域论文里的实验参照。
但是对于文档定性,比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法,大多数适用于短文档。但对于长文档,这些方法会导致模型变得非常庞大,并不适用。用关键词方法检索敏感信息,这种方法需要对全文进行检索,准确性不高,效率低下,缺乏了上下文的关联性,并且有些关键词并不主导文档的主要性质。
发明内容
本发明的目的在于,提出一种基于循环注意力机制的文档快速扫描定性方法,通过若干次探索找出最能够代表文档特征的句子,即分类概率最大的句子,在给定的步数里面,最快的扫描检测出含有标签的那些句子,从而对文档作定性分析。
本发明采用如下技术方案,一种基于循环注意力机制的文档快速扫描定性方法,该方法首先需要训练一个由卷积神经网络、循环神经网络以及强化学习结合起来的端到端的模型,所使用的训练数据是大量的文档及其标签(该标签即为文档的类别),训练目标是通过几次对文档的句子做探索,可以最大化的输出最能够代表该文档特征的若干句子,这些句子能够最大化的表示该文档的性质类型,其特征在于,具体步骤如下:
(1)获取训练数据集,拟定数据集中的文档的标签;
(2)在预处理阶段,将文档分成句子,再对句子进行分词,然后对每一个词使用word2vec词向量训练模型将其转化为词向量,由此将句子转化成一个由词向量组成的矩阵,从而将整个文档转换为词向量矩阵;
(3)词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,具体步骤为:
31)随机选取一个位置t,利用一个一维的卷积神经网络来提取位置t的句子的每个词的语义信息特征,再经过最大池化降维,输出每个句子的特征向量;
32)将每个句子的特征向量和上个时间步骤输出的隐含状态ht-1一起输入到循环神经网络中进行编码,然后输出当前时间的隐含状态ht;
33)将循环神经网络输出的隐含状态ht输入到一个强化学习模块,输出对下一个位置的索引预测Lt+1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南瑞集团有限公司;国家电网公司;南京信息工程大学;国网江苏省电力有限公司,未经南瑞集团有限公司;国家电网公司;南京信息工程大学;国网江苏省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711350432.5/2.html,转载请声明来源钻瓜专利网。