[发明专利]信息处理方法及装置有效
申请号: | 202110336220.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113096641B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 吴雨璇;陈昌儒;杨惠;周鼎皓;梁光 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 | ||
本发明实施例公开了一种信息处理方法及装置,通过确定音频信息和对应的文本信息,得到音频信息对应的多个音频特征向量和文本信息对应的多个文本特征向量。将各音频特征向量和各文本特征向量输入注意力机制层得到多个权重向量序列,以根据各权重向量序列、音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记,输出具有多个参考韵律等级标记的文本信息。本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以进一步自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法及装置。
背景技术
在语音合成领域中,为了实现有节奏的说话,需要插入相应的韵律标记,现有技术插入韵律标记的方法包括人工插入和通过深度学习网络学习的方式插入。分别存在效率低和需要文本音频对齐,在对齐不准确时影响准确率的问题。
发明内容
有鉴于此,本发明实施例提供一种信息处理方法及装置,旨在提高文本信息插入韵律标记的效率和准确率。
第一方面,本发明实施例提供了一种信息处理方法,所述方法包括:
确定音频信息和对应的文本信息;
确定所述音频信息对应的多个音频特征向量;
确定所述文本信息对应的多个文本特征向量;
将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列,各所述权重向量序列中包括对应于各所述音频特征向量的多个权重向量;
根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记;
输出具有多个参考韵律等级标记的文本信息。
进一步地,所述确定所述音频信息对应的多个音频特征向量包括:
确定所述音频信息对应的多个频域信号;
将各所述频域信号依次输入梅尔滤波器和音频编码层进行编码得到对应的音频特征向量。
进一步地,所述确定所述文本信息对应的多个文本特征向量包括:
确定所述文本信息对应的音素序列,所述音素序列中包括顺序对应于所述文本信息时间维度的多个音素;
分别将用于表征各所述音素的独热特征依次输入文本嵌入层和文本编码层,输出对应的文本特征向量。
进一步地,所述将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列包括:
以迭代方式执行以下步骤:
在时间维度上依次确定各所述文本特征向量为目标文本特征向量;
将所述目标文本特征向量和各所述音频特征向量输入注意力机制层,输出基于所述目标文本特征向量确定的各音频特征向量对应的权重向量,以确定所述目标文本特征向量对应的权重向量序列。
进一步地,所述根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记包括:
以迭代方式在多个权重向量序列中确定目标权重向量序列;
计算各所述音频特征向量和所述目标权重向量序列中对应权重向量的乘积,以确定对应的加权音频向量;
根据各所述加权音频向量和各所述文本特征向量确定对应于所述目标权重向量序列的参考韵律等级标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336220.1/2.html,转载请声明来源钻瓜专利网。