[发明专利]一种基于多任务的音素检测方法及装置有效
申请号: | 202011156288.3 | 申请日: | 2020-10-26 |
公开(公告)号: | CN112420075B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 谢川 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24;G10L15/02;G10L15/06 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 音素 检测 方法 装置 | ||
1.一种基于多任务的音素检测方法,其特征在于:包括以下步骤:
步骤A1)训练音素检测模型;
步骤A2)获取待检测的语音序列;
步骤A3)将语音序列分割为多个基础子序列;步骤A3)将语音序列分割为多个基础子序列,根据音素个数,将语音音频序列等分为与音素个数相等的多个基础子序列;
步骤A4)将基础子序列的端点进行移动,获得一组变换子序列集合;
步骤A5)将所有变换子序列输入音素检测模型,得到预测音素及对应的置信度;
步骤A6)取置信度最高的变换子序列,作为新的基础子序列;
步骤A7)判断基础子序列是否满足终止条件,若是,则获得音素检测结果和音素的起点和截止点位置并输出,若否,则返回步骤A4);步骤A7)中的终止条件设置为前后两侧音素识别的置信度差值小于设定值a、前后两次音素识别最高的两个序列IOU结果小于c%、音素识别置信度大于b、迭代次数大于等于预设最大迭代次数N,其中N为任意正整数,即当N为1时不进行迭代。
2.根据权利要求1所述的一种基于多任务的音素检测方法,其特征在于:所述步骤A7)中置信度最高的变换子序列的预测音素作为步骤A3)中基础子序列的最终音素检测结果,置信度最高的变换子序列的两个端点位置作为步骤A3)中基础子序列的音素起点和截止位置。
3.根据权利要求1所述的一种基于多任务的音素检测方法,其特征在于:所述步骤A3)中将语音序列分割为多个基础子序列的方法包括:通过语音识别或者音素识别的方法,检测出语音序列中包含的音素个数,根据音素个数,将语音序列等分或通过随机分为多个基础子序列。
4.根据权利要求1所述的一种基于多任务的音素检测方法,其特征在于:所述步骤A4)中将基础子序列生成变换子序列的方法包括,将基础子序列两个端点位置等距离平移或者将基础子序列两端点位置相对序列中心进行缩放。
5.根据权利要求1所述的一种基于多任务的音素检测方法,其特征在于:所述步骤A1)中的音素检测模型包括卷积神经网络、SVM或者可重训练的模型,所述可重训练的模型设置为通过训练语音数据及其对应的音素端点位置标记的文本信息,利用标记的音素端点位置和最接近的变换子序列位置的重合度,更新模型参数。
6.一种基于多任务的音素检测装置,其特征在于:用于实现如权利要求1-5所述的一种基于多任务的音素检测方法,包括语音数据模块、语音序列分割模块和音素检测模块,所述语音数据模块与语音序列分割模块信号连接,所述语音序列分割模块与音素检测模块信号连接。
7.根据权利要求6所述的一种基于多任务的音素检测装置,其特征在于:所述语音数据获取模块用于获取待检测的语音序列。
8.根据权利要求6所述的一种基于多任务的音素检测装置,其特征在于:所述语音序列分割模块用于将语音序列分割为多个基础子序列。
9.根据权利要求6所述的一种基于多任务的音素检测装置,其特征在于:所述音素检测模块用于获取每个基础子序列的检测结果和音素位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011156288.3/1.html,转载请声明来源钻瓜专利网。