[发明专利]一种跨场景快速适应的语音识别方法和装置在审
申请号: | 202010305374.X | 申请日: | 2020-04-17 |
公开(公告)号: | CN111477211A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 李新宇 | 申请(专利权)人: | 珠海声原智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/05;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京汇彩知识产权代理有限公司 11563 | 代理人: | 王键 |
地址: | 519000 广东省珠海市香*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 快速 适应 语音 识别 方法 装置 | ||
1.一种跨场景快速适应的语音识别方法,其特征在于,包括以下步骤:
首先选取满足要求的基础语音;然后将选取的基础语音在需要适应的场景中进行场景语音生成,通过高保真放音设备进行基础语音播放,用拾音设备进行录取;再对录制的场景语音进行标注,通过基础语音的标注信息进行场景录制语音对齐,生成真实场景的场景标注语音;最后采用深度神经网络进行场景语音自适应训练,达到场景语音识别的要求。
2.根据权利要求1所述的跨场景快速适应的语音识别方法,其特征在于,所述基础语音选取满足的要求包括:年龄覆盖主要年龄群;男女性别比例均衡;覆盖中文目前存在的七大方言区。
3.根据权利要求1所述的跨场景快速适应的语音识别方法,其特征在于,所述场景语音生成的流程包括:
1)数据预处理:将基础语音的每段中间增加2S的静音,然后拼接成10h一段长语音;
2)场景布置:根据真实的场景环境,布置放音和拾音位置;
3)场景还原:根据真实的场景环境,布置环境音播放位置;
4)场景数据生成:场景布置完成后,对基础语音进行放音和录音,并按照相应的文件名进行存储,将录音数据和放音数据的名称保持一一对应。
4.根据权利要求1所述的跨场景快速适应的语音识别方法,其特征在于,所述场景语音标注的流程包括:
1)语音断点检测:将场景语音录音数据进行语音静音检测,并且标注静音的起始时间点;
2)语音对齐:根据基础语音拼接的逻辑,在每段基础语音中间增加1S的静音,生成基础语音的每段的起始时间点;然后和场景语音录音数据的每段起始时间点进行对齐,采用编辑距离的计算方式,将没有匹配的语音删除;
3)生成语音标注文件,得到场景标注语音。
5.根据权利要求1所述的跨场景快速适应的语音识别方法,其特征在于,所述场景语音自适应训练的流程包括:
1)基础语音识别训练:通过基础语音数据利用深度神经网络训练生成基础语音识别模型;
2)场景语音声学模型训练:通过场景标注语音训练基础语音识别系统的声学模型,让基础语音识别系统学习到场景语言数据的特征,从而适应场景环境;
3)场景语音语言模型训练:训练场景语音和相应的场景文本,生成场景语音识别模型。
6.一种跨场景快速适应的语音识别装置,其特征在于,包括:
基础语音选取模块,用于选取满足要求的基础语音;
场景语音生成模块,用于通过在真实场景环境中对基础语音选取模块选取的基础语音进行放音和录音,获取真实的场景语音数据;
场景语音标注对齐模块,用于将生成的场景语音数据的起始时间点与基础语音的起始时间点进行对齐,获得场景标注语音;
场景语音识别模块,用于根据获得的场景标注语音,采用深度神经网络进行自适应训练,进行场景语音识别。
7.根据权利要求6所述的跨场景快速适应的语音识别装置,其特征在于,所述场景语音生成模块包括基础语言数据预处理单元,用于在生成场景语音之前对基础语言数据进行预处理。
8.根据权利要求6所述的跨场景快速适应的语音识别装置,其特征在于,所述场景语音标注对齐模块包括场景语音断点检测单元,用于在将场景语音数据进行标注对齐之前对录制的场景语音进行断点检测。
9.根据权利要求6所述的跨场景快速适应的语音识别装置,其特征在于,所述场景语音识别模块包括CNN神经网络构建单元,用于构建CNN神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海声原智能科技有限公司,未经珠海声原智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305374.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种佩戴式空气净化器
- 下一篇:带前端分析的输电线路图像监测设备及分析方法