[发明专利]面向语言模型的双单元搜索空间的结构搜索方法在审
申请号: | 202111084940.X | 申请日: | 2021-09-16 |
公开(公告)号: | CN113902094A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 余正涛;苗育华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 语言 模型 单元 搜索 空间 结构 方法 | ||
1.面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:首先,构建双单元搜索空间;
其次,在PTB数据集上进行搜索,选择搜索过程中在验证集上损失最小的结构作为待选单元结构;
最后,进入评估阶段,在语言模型任务上对搜索阶段得到的待选单元结构进行短时间评估,得到最优单元结构。
2.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:所述基于双单元搜索空间的结构搜索方法的具体实现步骤如下:
Step1、针对语言模型任务提出了双单元搜索空间,设置一个搜索单元,通过单元的连接来构成最终的循环神经网络,进而构建出搜索空间;
Step2、整个搜索阶段在PTB上建立,输入参数,共持续50个一代训练epoch,得到若干个不同的初始待选单元结构;选择搜索过程中在验证集上损失最小的若干个结构作为待选单元结构;
Step3、在语言模型任务上对搜索阶段得到的若干个待选单元结构进行短时间评估,得到最优单元结构。
3.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step1中提出的双单元搜索空间是将整个搜索空间的大框架延续了DARTS中的设置,即搜索一个单元,然后通过单元的连接来构成最终的循环神经网络,与DARTS不同的是,在每个单元内部设置了两个子单元:信息储存单元cellct以及信息处理单元cellht;每个单元都是一个包含若干节点的有向无环图;信息储存单元的输入为序列前若干个时刻的输入,以便对序列的前端信息进行有效的保存。
4.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step2中进行搜索阶段的实验参数大多数遵循DARTS中的设置,不同的参数在于:循环神经网络层数定为一层,词嵌入大小和隐藏层的大小均为300,批次大小为256;每个单元内部设置信息储存单元cellct和信息处理单元cellht,信息储存单元内部包含3个节点,信息处理单元内部包含8个节点。
5.根据权利要求4所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:节点与节点之间的边采取如下四种操作函数进行操作,四种操作函数分别为tanh、relu、sigmoid和identity。
6.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step2的搜索阶段中对于两个优化阶段分别使用不同的算法进行优化,网络权重w使用随机梯度下降SGD算法进行优化,学习率为20,权重衰减为5e-7;结构权重α利用Adam算法进行优化,初始学习率为3e-3,权重衰减为1e-3。
7.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step3中,评估阶段的参数设置,将模型的词嵌入大小和隐藏层大小扩大到850,批次大小为64,权重的优化方法使用平均随机梯度下降ASGD算法,初始学习率为20,权重衰减大小为8e-7。
8.根据权利要求1所述的面向语言模型的双单元搜索空间的结构搜索方法,其特征在于:Step3中对搜索阶段得到若干个待选单元结构进行短时间评估,得到最优单元结构,得到最优单元结构之后,将这个单元再次随机初始化网络权重,并在训练集进行更长时间的训练,直到其收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111084940.X/1.html,转载请声明来源钻瓜专利网。