[发明专利]一种跨场景快速适应的语音识别方法和装置在审

申请号：	202010305374.X	申请日：	2020-04-17
公开（公告）号：	CN111477211A	公开（公告）日：	2020-07-31
发明（设计）人：	李新宇	申请（专利权）人：	珠海声原智能科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/05;G10L15/06;G10L15/16;G10L15/26
代理公司：	北京汇彩知识产权代理有限公司 11563	代理人：	王键
地址：	519000 广东省珠海市香***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种场景快速适应语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种跨场景快速适应的语音识别方法，其特征在于，包括以下步骤：

首先选取满足要求的基础语音；然后将选取的基础语音在需要适应的场景中进行场景语音生成，通过高保真放音设备进行基础语音播放，用拾音设备进行录取；再对录制的场景语音进行标注，通过基础语音的标注信息进行场景录制语音对齐，生成真实场景的场景标注语音；最后采用深度神经网络进行场景语音自适应训练，达到场景语音识别的要求。

2.根据权利要求1所述的跨场景快速适应的语音识别方法，其特征在于，所述基础语音选取满足的要求包括：年龄覆盖主要年龄群；男女性别比例均衡；覆盖中文目前存在的七大方言区。

3.根据权利要求1所述的跨场景快速适应的语音识别方法，其特征在于，所述场景语音生成的流程包括：

1)数据预处理：将基础语音的每段中间增加2S的静音，然后拼接成10h一段长语音；

2)场景布置：根据真实的场景环境，布置放音和拾音位置；

3)场景还原：根据真实的场景环境，布置环境音播放位置；

4)场景数据生成：场景布置完成后，对基础语音进行放音和录音，并按照相应的文件名进行存储，将录音数据和放音数据的名称保持一一对应。

4.根据权利要求1所述的跨场景快速适应的语音识别方法，其特征在于，所述场景语音标注的流程包括：

1)语音断点检测：将场景语音录音数据进行语音静音检测，并且标注静音的起始时间点；

2)语音对齐：根据基础语音拼接的逻辑，在每段基础语音中间增加1S的静音，生成基础语音的每段的起始时间点；然后和场景语音录音数据的每段起始时间点进行对齐，采用编辑距离的计算方式，将没有匹配的语音删除；

3)生成语音标注文件，得到场景标注语音。

5.根据权利要求1所述的跨场景快速适应的语音识别方法，其特征在于，所述场景语音自适应训练的流程包括：

1)基础语音识别训练：通过基础语音数据利用深度神经网络训练生成基础语音识别模型；