[发明专利]面向语言模型的双单元搜索空间的结构搜索方法在审
申请号: | 202111084940.X | 申请日: | 2021-09-16 |
公开(公告)号: | CN113902094A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 余正涛;苗育华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 语言 模型 单元 搜索 空间 结构 方法 | ||
本发明涉及面向语言模型的双单元搜索空间的结构搜索方法,涉及人工智能领域。本发明在语言模型任务上对已有搜索策略的搜索空间提出了改进,构造了更加适合语言模型任务的搜索空间。通过在循环神经网络单元内部增加信息储存单元来对序列前端信息进行有效的保存,这样的搜索空间与语言模型任务更加匹配,且增加的单元能够缓解常规循环神经网络单元结构存在的无法解决长序列依赖的问题,增加序列语义信息的连续性。同时由于单元的增加直接扩大了搜索空间,也提高了搜索到更好的网络结构的概率。
技术领域
本发明涉及面向语言模型的双单元搜索空间的结构搜索方法,属于人工智能技术领域。
背景技术
搜索空间的设计是神经网络结构搜索研究中的第一步也是极其重要的一步,搜索空间决定了模型性能的上下限。然而,搜索空间的大小和搜索速度及硬件要求之间的对立关系使得其设计处于左右为难的局面。一方面,庞大的搜索空间拥有巨大的网络探索潜能,却需要极高的硬件支撑和时间消耗;另一方面,较小的搜索空间尽管对硬件和时间上较为友好,但在网络潜能的挖掘能力上十分有限。因此,如何定义一个合适的搜索空间,达到最好的搜索效果,成为了目前结构搜索研究中有待解决的问题。
神经网络结构搜索的研究还处于初步阶段,但领域专家们已经提出了许多优秀的结构搜索方法,并取得了不错的效果。现在最流行的神经网络结构搜索方法DARTS,其构造了一个基于循环结构的最简单的单元,单元内部是一个有向无环图,通过梯度优化的方法学习单元内部的结构并将学习到的单元循环连接构成最终的模型。基于循环单元的模型能够处理一定的序列短期依赖问题,但当序列较长时,序列远端的梯度很难反向传播到当前序列,这就产生了梯度消失的问题,导致序列的语义信息中断。针对该问题,本发明在语言模型任务上对结构搜索的搜索空间进行了研究,提出一种基于双单元扩展空间的结构搜索方法。
发明内容
本发明提供了面向语言模型的双单元搜索空间的结构搜索方法,用以解决当序列较长时,序列远端的梯度很难反向传播到当前序列,产生了梯度消失,导致序列的语义信息中断的问题。
本发明的技术方案是:面向语言模型的双单元搜索空间的结构搜索方法,首先,构建双单元搜索空间;
其次,在PTB数据集上进行搜索,选择搜索过程中在验证集上损失最小的结构作为待选单元结构;
最后,进入评估阶段,在语言模型任务上对搜索阶段得到的待选单元结构进行短时间评估,得到最优单元结构。
作为本发明的进一步方案,所述基于双单元搜索空间的结构搜索方法的具体实现步骤如下:
Step1、针对语言模型任务提出了双单元搜索空间,设置一个搜索单元,通过单元的连接来构成最终的循环神经网络,进而构建出搜索空间;
Step2、整个搜索阶段在PTB上建立,输入参数,共持续50个一代训练epoch,得到若干个不同的初始待选单元结构;选择搜索过程中在验证集上损失最小的若干个结构作为待选单元结构;
Step3、在语言模型任务上对搜索阶段得到的若干个待选单元结构进行短时间评估,得到最优单元结构。
作为本发明的进一步方案,Step1中提出的双单元搜索空间是将整个搜索空间的大框架延续了DARTS中的设置,即搜索一个单元,然后通过单元的连接来构成最终的循环神经网络,与DARTS不同的是,在每个单元内部设置了两个子单元:信息储存单元cellct以及信息处理单元cellht;每个单元都是一个包含若干节点的有向无环图;信息储存单元的输入为序列前若干个时刻的输入,以便对序列的前端信息进行有效的保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111084940.X/2.html,转载请声明来源钻瓜专利网。