[发明专利]CTC模型的训练方法和数据处理方法、装置及存储介质在审
申请号: | 202010124513.9 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111340117A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 巢林林;陈景东;褚崴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 郭曼 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ctc 模型 训练 方法 数据处理 装置 存储 介质 | ||
本说明书涉及一种联结主义时间分类(CTC)模型的训练方法和装置,在该方法中,将特征向量分别输入第一全连接层和第二全连接层;确定特征向量和标签序列的联合表示向量后输入第三全连接层;然后,CTC损失层根据各层输出的归一化结果确定标签序列的似然分布和空白字符先验分布,从而确定本次训练的梯度值,完成一次训练。本说明书还提供了基于上述CTC模型的数据处理方法和装置、电子设备以及计算机可读存储介质。
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种CTC模型的训练方法和数据处理方法、装置、电子设备以及计算机可读存储介质。
背景技术
联结主义时间分类(Connectionist Temporal Classification,CTC)是一种数据单元与标注单元不存在严格对齐信息下的时间序列分类算法,该算法目前被广泛应用于光学文字识别(OCR)和语音识别中。CTC模型的主要作用是构造出一种针对序列的损失函数,并在反向传播过程中将依据损失函数确定的梯度回传给上一层以完成CTC模型的训练。目前需要一种高效并且具有高精度的CTC模型训练方法。
发明内容
有鉴于此,本说明书的实施例提出了一种CTC模型的训练方法。该方法可以包括:
获取特征序列以及与所述特征序列对应的标签序列的嵌入表示向量,其中,所述特征序列包括至少一个特征向量,所述至少一个特征向量包括:图片格式的文字或者语音信号经过特征提取网络处理后得到的对应各个时刻的特征向量;
将所述至少一个特征向量依次输入第一全连接层,并将所述第一全连接层的输出归一化后,得到空白字符对应各个时刻的先验分布;
将所述至少一个特征向量依次输入第二全连接层,并将所述第二全连接层的输出归一化后,得到所述文字或所述语音信号对应的字典集中各个元素对应各个时刻的概率;
确定所述至少一个特征向量与标签序列的联合表示向量,将所述联合表示向量输入第三全连接层,并将所述第三全连接层的输出归一化后,得到空白字符对应各个时刻的后验逼近概率;
根据所述空白字符对应各个时刻的后验逼近概率以及所述字典集中各个元素对应各个时刻的概率确定所述标签序列的似然分布;以及
根据所述标签序列的似然分布和所述空白字符先验分布确定本次训练的梯度值,并根据所述梯度值调整所述第一全连接层、第二全连接层和第三全连接层的权值。
其中,上述确定所述标签序列的似然分布可以包括:确定字典集中各个元素以及空白字符对应各个时刻的似然概率;根据所述字典集中各个元素以及空白字符对应各个时刻的似然概率确定所述标签序列的似然分布;其中,所述空白字符对应各个时刻的似然概率为空白字符对应各个时刻的后验逼近概率;所述字典集中各个元素对应各个时刻的似然概率为非空白字符对应各个时刻的后验逼近概率与所述元素在对应时刻概率的乘积。
其中,上述确定所述标签序列的似然分布可以包括:根据所述字典集中各个元素以及空白字符对应各个时刻的似然概率分别确定所述CTC模型多条输出路径的似然概率;将对应同一输出序列的多条输出路径的似然概率求和,将得到的和作为所述输出序列的似然概率;以及将所述CTC模型多个输出序列的似然概率的分布作为所述标签序列的似然分布。
其中,上述根据所述标签序列的似然分布和所述空白字符先验分布确定本次训练的梯度值可以包括:以如下表达式作为CTC模型训练的损失函数:
其中,p(Ob|X)为所述空白字符先验分布;p(Y|Ob,X)为所述标签序列的似然分布;Ob代表空白字符输出序列;以及根据所述损失函数确定本次训练的梯度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010124513.9/2.html,转载请声明来源钻瓜专利网。