[发明专利]一种基于注意力分散的长短期记忆网络的语义编码方法有效
申请号: | 202110375326.2 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113033189B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 郭树理;杨文涛;韩丽娜;王国威;宋晓伟 | 申请(专利权)人: | 北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 邬晓楠 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 分散 短期 记忆 网络 语义 编码 方法 | ||
本发明公开的一种基于注意力分散的长短期记忆网络的语义编码方法,属于自然语言处理生成领域。针对现有技术中存在的语义偏差、梯度消失、梯度爆炸、融合上下文信息不完善等问题,本发明使用的神经网络在BiLSTM基础上添加了一个参数共享单元,增强了模型获取和融合双向特征信息的能力;采用改进了的深度学习模型中的激活函数,减小了梯度问题出现的概率;对输入和隐藏层,采用交互空间和扩展LSTM的方式构建模型,增强了模型融合上下文信息的能力;引入了语句结构信息变量的注意力分散机制,对语义的生成进行了限制从而提了高语义准确性。本发明适用于自动写新闻或标题、机器人客服、会议或诊断报告生成等自然语言生成的应用。
技术领域
本发明涉及一种基于注意力分散的长短期记忆网络的语义编码方法,属于自然语言处理生成领域。
背景技术
自然语言生成主要应用在人机对话以及摘要、图片视频描述等领域,是自动写新闻或标题、机器人客服、会议或诊断报告生成等应用的核心技术。而其中语义的正确性是生成语言的关键所在。
自然语言生成多采用编码到解码的序列转换形式,将一序列信息转换成另一对应的序列文本。层级编码的过程分为句子语义编码、篇章信息编码、解码、句子概率计算4个步骤。文本生成步骤中,句子语义编码是自然语言生成的底层的基础步骤,其目的是为得到句子的特征向量。句子语义编码时,语义的获取能力和正确性,对自然语言的生成有着重要的作用。
自然语言中最重要的信息是语义信息,语义包含着近义词,同义词,句子的结构主题等信息,语义的正确性决定着自然语言处理效果的好坏。目前随着计算机技术的发展以及语言数据库的完善,利用机器学习和神经网络可以生成语义较为准确的自然语言。但是由于训练神经网络的资源贫乏和训练学习机制的不完善,所以生成的自然语言在语义上仍存在错误和偏差。
目前技术中主要采用编码-解码框架解决语言的生成任务。编码-解码框架中的编码器主要为长短神经网络(LSTM),由于其改善了长序列信息中梯度消失和梯度爆炸的问题,在自然语言的处理上有着广泛的应用。双向长短时记忆神经网络(BiLSTM)主要是由两层LSTM层组成,分别为前向LSTM和后向LSTM,这种结构可以对语句中的上下文信息进行捕获。对前向和后向的神经网络进行训练,可以做到同时处理并保留未来和过去的信息,因此可以得到较为丰富和深入的信息。虽然BiLSTM改善了梯度爆炸和梯度消失的问题,但是在序列信息过长时仍存在上述两种问题,同时尽管BiLSTM可以获取序列的双向特征信息,但是仅仅将双向的输出进行连接,而未建立完善的融合上下文信息的链接机制。
发明内容
本发明公开的一种基于注意力分散的长短期记忆网络的语义编码方法,属于自然语言处理生成领域。针对现有技术中存在的语义偏差、梯度消失、梯度爆炸、融合上下文信息不完善等问题,本发明使用的神经网络在BiLSTM基础上添加了一个参数共享单元,增强了模型获取和融合双向特征信息的能力;采用改进了的深度学习模型中的激活函数,减小了梯度问题出现的概率;对输入和隐藏层,采用交互空间和扩展LSTM的方式构建模型,增强了模型融合上下文信息的能力;引入了语句结构信息变量的注意力分散机制,对语义的生成进行了限制从而提了高语义准确性。本发明适用于自动写新闻或标题、机器人客服、会议或诊断报告生成等自然语言生成的应用。
为达到以上的目的,本发明采用以下技术方案。
本发明采用参数共享单元与BiLSTM相结合的自然语言生成编码模型,结合BiLSTM的双向网络结构,利用上下文关系来增强生成语句的语义效果。目前语言生成技术多采用LSTM,但LSTM由于梯度问题使其在处理长序列的自然语言任务存在语义偏差的问题。对此问题,编码模型相较于传统的BiLSTM编码添加了一个参数共享单元。参数共享单元对LSTM网络中的激活函数进行改进,使神经网络更适应语义编码任务,同时将语言输入记录为语义表示信息,并将此信息传达给修改后的LSTM单元。BiLSTM结合注意力分散力机制去规划语句之间的关联性从而在确保全局信息的前提下完成自然语言生成的编码。采用以上方法提高自然语言生成的准确性和稳定性,具有更好效果的语义完整性和流畅性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院,未经北京理工大学;中国人民解放军总医院第二医学中心;海南软件职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110375326.2/2.html,转载请声明来源钻瓜专利网。