[发明专利]一种语音标注方法及其系统有效
申请号: | 201910875253.6 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110556093B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 鲁泽茹;胡新辉;徐欣康 | 申请(专利权)人: | 浙江同花顺智富软件有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L13/10;G10L25/03;G10L25/24;G10L25/30;G10L25/51 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 标注 方法 及其 系统 | ||
1.一种语音标注方法,其特征在于,所述方法包括以下步骤:
获取音频数据和对应的音频文本数据;
确定所述音频数据的声学特征以及所述音频文本数据的音素标注;
将所述音频数据的所述声学特征和对应的所述音频文本数据的音素标注输入语音标注校验模型进行强制对齐;
基于强制对齐结果,获取标注异常语句;所述强制对齐结果包括所述音频数据的声学特征与所述音频文本数据的音素标注之间的匹配概率;
对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。
2.如权利要求1所述的方法,其特征在于,所述确定所述音频文本数据的音素标注,包括:
利用至少一种分词算法,对所述音频文本数据进行分词;
基于转换算法,确定分词后的所述音频文本数据的音素标注。
3.如权利要求2所述的方法,其特征在于,所述确定分词后的所述音频文本数据的音素标注,
包括:
基于所述分词后的音频文本数据所处的上下文场景匹配所述分词后的音频文本的音素标注。
4.如权利要求1所述的方法,其特征在于,所述获取所述标注异常语句,包括:
确定所述匹配概率是否小于预设阈值;
若所述匹配概率小于所述预设阈值,确定所述匹配概率对应的标识,并基于所述标识获取所述标注异常语句。
5.如权利要求1所述的方法,其特征在于,所述语音标注校验模型包括基于Kaldi的GMM-HMM三音素声学模型,或基于HTK的GMM-HMM单音素或三音素声学模型。
6.如权利要求1所述的方法,其特征在于,所述对所述标注异常语句进行校正以获取满足预设条件的音素标注结果,包括:
获取对所述标注异常语句更新后的音素标注;
将所述标注异常语句的声学特征和对应的更新后的音素标注输入语音标注校验模型,进行强制对齐;
基于所述强制对齐结果,确定所述更新后的音素标注是否正确;
若所述更新后的音素标注错误,则重复进行所述标注异常语句的更新的音素标注获取及正确性判定过程,直至满足所述预设条件为止。
7.如权利要求1所述的方法,其特征在于,所述音频数据的所述声学特征包括线性预测系数、倒谱系数、梅尔滤波器组、或感知线性预测系数。
8.一种语音标注系统,其特征在于,所述语音标注系统包括获取模块以及确定模块;
所述获取模块,用于获取音频数据和对应的音频文本数据;
所述确定模块,用于
确定所述音频数据的声学特征以及所述音频文本数据的音素标注;
将所述音频数据的所述声学特征和对应的所述音频文本数据的音素标注输入语音标注校验模型进行强制对齐;
基于强制对齐结果,获取标注异常语句;所述强制对齐结果包括所述音频数据的声学特征与所述音频文本数据的音素标注之间的匹配概率;
对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。
9.一种语音标注装置,其特征在于,所述装置包括处理器以及存储器;所述存储器用于存储指令,其特征在于,所述指令被所述处理器执行时,导致所述装置实现如权利要求1~7中任意一项所述的语音标注方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行如权利要求1~7中任意一项所述的语音标注方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江同花顺智富软件有限公司,未经浙江同花顺智富软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910875253.6/1.html,转载请声明来源钻瓜专利网。