[发明专利]一种韵律标注方法、装置、设备、介质有效
申请号: | 201910899853.6 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110459202B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 谌明;陆健;徐欣康;胡新辉 | 申请(专利权)人: | 浙江同花顺智能科技有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L25/24;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 巴翠昆 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 韵律 标注 方法 装置 设备 介质 | ||
1.一种韵律标注方法,其特征在于,包括:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果;
其中,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;
通过所述解码器中的注意力模块将所述第一声学特征的中间表示和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;所述中间表示由所述编码器编码所述第一声学特征得到;所述注意力模块从第一声学特征中选择出与第一文本特征相似度最大的部分,关联该相似度最大的部分与第一文本特征;
将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的实时韵律标注结果;
计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
2.根据权利要求1所述的韵律标注方法,其特征在于,所述获取样本音频对应的第一声学特征之前,还包括:
将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
3.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一文本特征之前,还包括:
将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
4.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:
将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
5.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:
将所述端到端神经网络的网络参数随机初始化。
6.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:
训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。
7.根据权利要求1至6任一项所述的韵律标注方法,其特征在于,所述当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果之后,还包括:
将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江同花顺智能科技有限公司,未经浙江同花顺智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910899853.6/1.html,转载请声明来源钻瓜专利网。