[发明专利]音频识别模型的训练方法、装置和音频识别方法、装置有效
申请号: | 202110278612.7 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112668704B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李成飞;汪光璟;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 张通 |
地址: | 100089 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 模型 训练 方法 装置 | ||
本申请提供一种音频识别模型的训练方法、装置和音频识别方法、装置,训练方法包括:采用各个语种的音频‑音标样本训练音频‑音标转换模型;音频‑音标转换模型包括第一网络模块;采用各个语种的音标‑文本样本训练音标‑文本转换模型;音标‑文本转换模型包括第二网络模块;采用第一网络模块处理多语混杂音频样本得到第一向量;采用第二网络模块处理标注音标,得到第二向量;根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;采用第一向量、第二向量、第三向量和标注文本中的词语,对音频识别模型的耦合模型进行训练。本申请基于少量的多语混合音频和对应的音标和文本,就可以建立起性能较好的多语混杂音频识别模型。
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种音频识别模型的训练方法、装置和音频识别方法、装置。
背景技术
多语混杂音频是一种包括多种语言类型、或者多种方言类型的音频(为了后续的表述的方便性,本申请实施例中将多种方言混合得到音频也称为多语混杂音频);多语混杂音频多录制于外语教学、方言教学等场景中,也可能录制于演讲和多人沟通中。
为了能够实现多语混杂音频进行文本识别,目前已有处理方法是采深度学习方法训练得到端到端的语音识别模型。因为端到端的语音识别模型的解码部分中,后一时刻的输出依赖于前一时刻的输出;而为了能够得到精准的语音识别模型,需要足够训练数量的多语混杂音频训练样本;而现实情况是,多语混杂音频样本的获取难度很高,并且还需要大量专业人员对多语混杂音频训练样本进行人工标注。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供一种用于多语混杂音频的音频识别模型的训练方法,以及多语混杂音频的识别方法。
一方面,本申请提供一种音频识别模型的训练方法,包括:
采用至少两个语种的音频-音标样本训练得到所述音频识别模型中的音频-音标转换模型;所述音频-音标转换模型包括第一网络模块;
采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;所述音标-文本转换模型包括第二网络模块;
采集多语混杂音频样本,并采用所述第一网络模块处理所述多语混杂音频样本,得到第一向量;
采用所述第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;
根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量;
采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述音频识别模型的耦合模型进行训练。
可选地,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据所述初始化字符或所述标注文本中的词语得到词向量;以及,根据所述初始化字符或所述标注文本中词语的位置得到位置向量;
根据所述词向量和所述位置向量,得到所述第三向量。
可选地,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据初始化字符或所述标注文本中的词语得到词向量;
根据所述词向量得到所述第三向量。
可选地,所述耦合模型包括前处理模块和融合模块;
采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述音频识别模型的耦合模型进行训练,包括:
采用所述前处理模块对第三向量进行非线性变换,生成第四向量;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成结果向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278612.7/2.html,转载请声明来源钻瓜专利网。