[发明专利]一种基于自注意力的汉语韵律层级预测方法及系统在审
申请号: | 201811571546.7 | 申请日: | 2018-12-21 |
公开(公告)号: | CN111354333A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 张鹏远;卢春晖;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 汉语 韵律 层级 预测 方法 系统 | ||
1.一种基于自注意力的汉语韵律层级预测方法,所述方法包括:
对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。
2.根据权利要求1所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述韵律层级预测模型的训练步骤包括:
步骤1)对大量无标注文本进行学习获得单字的字向量;
步骤2)利用步骤1)得到的字向量将分词数据对应的文本转换为字向量序列,并根据分词结果得到其词位标记序列;
步骤3)基于自注意力机制构建韵律层级预测模型,分别以步骤2)中得到的分词数据的字向量序列及词位标记序列作为输入和输出,对该预测模型进行预训练;
步骤4)利用步骤1)得到的字向量将韵律标注数据对应的文本转换为字向量序列,根据其对应分词结果得到词位标记序列,并根据韵律标注获得各韵律层级对应的标注序列;
步骤5)在步骤3)的预训练得到的模型基础上,根据步骤4)得到的韵律数据的字向量序列、词位标记序列、韵律标注序列,再次训练韵律层级预测模型,得到训练好的韵律层级预测模型。
3.根据权利要求2所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤1)具体为:基于连续词袋模型CBOW,设定字向量维度为d,利用大量无标注文本进行训练得到文本中所有单字的字向量初始值,以字-字向量初始值构建字表。
4.根据权利要求3所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤2)进一步包括:
步骤2-1)根据所述分词数据的文本信息,通过查找字表的方式查到对应字的字向量,从而确定对应文本的字向量特征序列;
步骤2-2)根据字在词中的位置确定分词数据文本对应的词位标记序列,分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。
5.根据权利要求4所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤3)进一步包括:
步骤3-1)构建一个N层的韵律层级预测模型,每层包含一个前馈神经网络子层和一个自注意力子层,在每两个子层间采用残差连接,如下式:
Y=X+SubLayer(X)
其中X、Y分别表示子层的输入和输出;该预测模型共有四个输出层,其中三个输出层分别预测韵律词边界、韵律短语边界和语调短语边界;还有一个输出层预测词位,实现对文本的分词;
所述前馈神经网络子层由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,公式如下:
FFN(X)=max(XW1+b1,0)W2+b2
其中W1、W2为两个线性投影的权重矩阵,维度分别为d×df和df×d;b1、b2为偏置向量;
所述自注意力子层采用多头自注意力,对于每个头,先对输入矩阵进行线性投影,得到三个矩阵Q、K、V,然后对这三个矩阵进行缩放点积注意力操作,得到向量M,将所有头的M拼接并做线性投影得到该子层的输出;M由下式计算:
其中,Softmax()为归一化指数函数;
步骤3-2)使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码,编码函数如下:
PE(t,2i)=sin(t/100002i/d)
PE(t,2i+1)=sin(t/100002i/d)
其中,t为位置,i为维度;位置编码与输入字向量维度同为d,将两者相加一起作为韵律层级预测模型的输入;
步骤3-3)对韵律层级预测模型进行预训练;
以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代,其代价函数为:
其中,y为期望输出,y={0,1},a是实际的输出值,满足a∈[0,1],x对应输出层的每个节点,n为输出层的节点数量;模型的参数通过随机梯度下降的反向传播算法进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811571546.7/1.html,转载请声明来源钻瓜专利网。