[发明专利]一种跨场景快速适应的语音识别方法和装置在审
申请号: | 202010305374.X | 申请日: | 2020-04-17 |
公开(公告)号: | CN111477211A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 李新宇 | 申请(专利权)人: | 珠海声原智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/05;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京汇彩知识产权代理有限公司 11563 | 代理人: | 王键 |
地址: | 519000 广东省珠海市香*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 快速 适应 语音 识别 方法 装置 | ||
本发明提出一种跨场景快速适应的语音识别方法和装置,通过通用数据在不同场景的真实录放,真实大规模生成场景训练语音数据,从而达到对场景的快速语音适应,具有快速、低成本和高效的优势,助力语音识别多场景的落地应用。包括以下步骤:首先选取满足要求的基础语音;然后将选取的基础语音在需要适应的场景中进行场景语音生成,通过高保真放音设备进行基础语音播放,用拾音设备进行录取;再对录制的场景语音进行标注,通过基础语音的标注信息进行场景录制语音对齐,生成真实场景的场景标注语音;最后采用深度神经网络进行场景语音自适应训练,达到场景语音识别的要求。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种跨场景快速适应的语音识别方法和装置。
背景技术
近年来,随着大规模连续语音识别技术的发展,语音识别被应用在越来越多的应用场景上。但是,伴随着应用场景的增多,对语音识别的在不同场景落地的识别率要求越来越高,因此,如何快速进行场景适应成为语音识别落地关键的因素。目前通用的方法就是从真实场景中获取真实的录音,然后对语音进行标注和训练。此方法最大的问题就是语音标注成本较高且缺乏规模较大的真实的录音,无法对场景达到快速的适应和语音识别率的提高。另外,还是有一种自动语音增强的方法,将现有的训练语音通过数据模拟的方法,即从现有的语音中随机增加噪音或改变音量,达到适应不同场景的目的。但此方法较依赖数据模拟的准确度和现有的噪声库,是一种语音数据处理的方法,无法真实模拟场景环境,因此无法适应真实场景。
发明内容
根据现有技术存在的问题,本发明提出一种跨场景快速适应的语音识别方法和装置,通过通用数据在不同场景的真实录放,真实大规模生成场景训练语音数据,从而达到对场景的快速语音适应,具有快速、低成本和高效的优势,助力语音识别多场景的落地应用。
本发明的技术方案是:
1.一种跨场景快速适应的语音识别方法,其特征在于,包括以下步骤:
首先选取满足要求的基础语音;然后将选取的基础语音在需要适应的场景中进行场景语音生成,通过高保真放音设备进行基础语音播放,用拾音设备进行录取;再对录制的场景语音进行标注,通过基础语音的标注信息进行场景录制语音对齐,生成真实场景的场景标注语音;最后采用深度神经网络进行场景语音自适应训练,达到场景语音识别的要求。
2.所述基础语音选取满足的要求包括:年龄覆盖主要年龄群;男女性别比例均衡;覆盖中文目前存在的七大方言区。
3.所述场景语音生成的流程包括:
1)数据预处理:将基础语音的每段中间增加2S的静音,然后拼接成10h一段长语音;
2)场景布置:根据真实的场景环境,布置放音和拾音位置;
3)场景还原:根据真实的场景环境,布置环境音播放位置;
4)场景数据生成:场景布置完成后,对基础语音进行放音和录音,并按照相应的文件名进行存储,将录音数据和放音数据的名称保持一一对应。
4.所述场景语音标注的流程包括:
1)语音断点检测:将场景语音录音数据进行语音静音检测,并且标注静音的起始时间点;
2)语音对齐:根据基础语音拼接的逻辑,在每段基础语音中间增加1S的静音,生成基础语音的每段的起始时间点;然后和场景语音录音数据的每段起始时间点进行对齐,采用编辑距离的计算方式,将没有匹配的语音删除;
3)生成语音标注文件,得到场景标注语音。
5.所述场景语音自适应训练的流程包括:
1)基础语音识别训练:通过基础语音数据利用深度神经网络训练生成基础语音识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海声原智能科技有限公司,未经珠海声原智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305374.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种佩戴式空气净化器
- 下一篇:带前端分析的输电线路图像监测设备及分析方法