[发明专利]用于语音编码的蓝牙音频的传送方法、系统和电子设备在审
申请号: | 202111259309.9 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113990334A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 江正红;罗修樟;江建方 | 申请(专利权)人: | 深圳市美恩微电子有限公司 |
主分类号: | G10L19/04 | 分类号: | G10L19/04;G10L19/16;G10L25/24;G10L15/08 |
代理公司: | 深圳峰诚志合知识产权代理有限公司 44525 | 代理人: | 李明香 |
地址: | 518000 广东省深圳市龙华区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 编码 蓝牙 音频 传送 方法 系统 电子设备 | ||
1.一种用于语音编码的蓝牙音频的传送方法,其特征在于,包括:
训练阶段,包括:
获取训练数据集,所述训练数据集包括发送端发送的语音信号和真实的接收端接收到的语音信号;
将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量,其中,所述多个语义特征向量中每个语音特征向量对应于所述发送端发送的语音信号中的一段语音信号;
将所述多个语音特征向量输入由多个全连接层组成的解码器模型以从所述多个语音特征向量组成的语音特征向量序列中恢复出解码语音信号;
通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型;
将所述多个语音特征向量分别通过所述预测编码模型的转换器以获得多个编码的语音特征向量;
基于所述转换器的内在结构,计算所述多个编码的语音特征向量中每个编码的语音特征向量的掩码转换值以获得由多个掩码转换值组成的分类特征向量,其中,所述掩码转换值基于所述多个编码的语音特征向量中两个编码的语音特征向量之间的距离和所述多个编码的语音特征向量中各个编码的语音特征向量是否被编码的表征值计算而得;
将所述分类特征向量通过多标签分类器来标注所述分类特征向量的类别,其中,所述分类特征向量的类别用于表示所述多个编码的语音特征向量作为整体的类别;以及
基于所述分类特征向量的类别与真实类别之间的交叉熵损失函数值来训练所述预测编码模型的转换器和所述多标签分类器;以及
推断阶段,包括:
获取发送端发送的语音信号;
将所述发送端发送的语音信号输入经训练阶段训练完成的所述预测编码模型和所述多标签分类器以获得多个语音特征向量和所述发送端发送的语音信号对应的类别;以及
将所述多个语音特征向量和所述发送端发送的语音信号对应的类别发送至接收端。
2.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法,其中,将所述训练数据集中的所述发送端发送的语音信号通过作为预测编码模型的语义理解模型以获得多个语音特征向量,包括:
将所述发送端发送的语音信号通过模数转化器以将所述发送端发送的语音信号转化为数字信号;
使用声谱分析器对数字化的所述发送端发送的语音信号进行音谱分析,以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号;以及
使用参数变换器分别对所述多个子语音信号进行处理以获得所述多个子语音向量;以及
将所述多个子语音向量通过所述语义理解模型以获得所述多个语音特征向量。
3.根据权利要求2所述的用于语音编码的蓝牙音频的传送方法,其中,使用声谱分析器对数字化的所述发送端发送的语音信号进行音谱分析,以将所述数字化的所述发送端发送的语音信号切分为多个子语音信号,包括:
对数字化的所述发送端发送的语音信号进行离散傅里叶变换;以及
对经离散傅里叶变换后的数字化的所述发送端发送的语音信号进行Mel滤波;以及
对经Mel滤波后的所述发送端发送的语音信号进行切分以获得所述多个子语音信号。
4.根据权利要求1所述的用于语音编码的蓝牙音频的传送方法,其中,通过最小化所述解码语音信号和所述真实的接收端接收到的语音信号之间的差异来训练所述预测编码模型和所述解码器模型,包括:
计算所述解码语音信号和所述真实的接收端接收到的语音信号之间的交叉熵损失函数值作为两者之间的差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市美恩微电子有限公司,未经深圳市美恩微电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111259309.9/1.html,转载请声明来源钻瓜专利网。