[发明专利]一种基于多任务的音素检测方法及装置有效
申请号: | 202011156288.3 | 申请日: | 2020-10-26 |
公开(公告)号: | CN112420075B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 谢川 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24;G10L15/02;G10L15/06 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 音素 检测 方法 装置 | ||
本发明公开了一种基于多任务的音素检测方法,包括以下步骤:步骤A1)训练音素检测模型;步骤A2)获取待检测的语音序列;步骤A3)将语音序列分割为多个基础子序列;步骤A4)将基础子序列的端点进行移动,获得一组变换子序列集合;步骤A5)将所有变换子序列输入音素检测模型,得到预测音素及对应的置信度;步骤A6)取置信度最高的变换子序列,作为新的基础子序列;步骤A7)判断基础子序列是否满足终止条件,若是,则获得音素检测结果和音素位置并输出,若否,则返回步骤A4)。本发明解决了无法同时完成音素识别和音素对齐任务,音素对齐准确率低,音素识别任务和音素对齐任务无法共享学习结果的技术问题。
技术领域
本发明涉及数据智能领域,具体的说,是一种基于多任务的音素检测方法及装置。
背景技术
随着深度学习技术的发展,语音识别,声纹识别,语音合成以及语音情感分析等基于深度语音处理技术不断突破。音素作为语音的自然属性划分出来的最小语音单位,在深度语音处理中扮演者非常重要的地位,是大部分语音处理的基础。同时音素对深度语音处理系统在实际场景中快速响应有着非常重要的意义。同时现有数据集,包含音素对齐信息的语音数据库非常少,并且受限于数据库本身的音素定义规范,很容易遇见数据库音素定义规范不统一的情况,对语音在音素相关领域研究产生了极大的阻碍。语音的音素研究受限于各数据库对音素定义不通用,以及数据无法扩展,不能在音素层面做数据增强。同时采用人工音素检测方法,存在成本大幅增加的问题,不仅需要消耗大量人力成本,同时也需要大量时间成本,并无法对大量数据做人工音素检测,因此无法满足现有算法对训练数据量的需求。
发明内容
本发明的目的在于提供一种基于多任务的音素检测方法及装置,用于解决无法同时完成音素识别和音素对齐任务,音素对齐准确率低,音素识别任务和音素对齐任务无法共享学习结果的技术问题。
本发明通过下述技术方案解决上述问题:
一种基于多任务的音素检测方法,包括以下步骤:
步骤A1)训练音素检测模型;
步骤A2)获取待检测的语音序列;
步骤A3)将语音序列分割为多个基础子序列;
步骤A4)将基础子序列的端点进行移动,获得一组变换子序列集合;
步骤A5)将所有变换子序列输入音素检测模型,得到预测音素及对应的置信度;
步骤A6)取置信度最高的变换子序列,作为新的基础子序列;
步骤A7)判断基础子序列是否满足终止条件,若是,则获得音素检测结果和音素位置并输出,若否,则返回步骤A4)。
进一步地,所述步骤A7)中置信度最高的变换子序列的预测音素作为步骤A3)中基础子序列的最终音素检测结果,置信度最高的变换子序列的两个端点位置作为步骤A3)中基础子序列的音素起点和截止位置。
进一步地,所述步骤A3)中将语音序列分割为多个基础子序列的方法包括:基于固定的音素数量和基于窗口,所述基于固定的音素数量方法设置为通过语音识别或者音素识别的方法,检测出语音序列中包含的音素个数,根据音素个数,将语音序列等分或通过随机分为多个基础子序列;所述基于窗口设置为预设宽度W和步长S对语音序列进行分割,其中宽度W为一个基础子序列的长度,所述步长S表示每次分割后,对齐窗从上一个窗口向下一个窗口移动的距离。
进一步地,所述步骤A4)中将基础子序列生成变换子序列的方法包括,将基础子序列两个端点位置等距离平移或者将基础子序列两端点位置相对序列中心进行缩放。
进一步地,所述步骤A1)中的音素检测模型包括卷积神经网络、SVM或者可重训练的模型,所述可重训练的模型设置为通过训练语音数据及其对应的音素端点位置标记的文本信息,利用标记的音素端点位置和最接近的变换子序列位置的重合度,更新模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011156288.3/2.html,转载请声明来源钻瓜专利网。