[发明专利]语音识别方法、装置、电子设备及存储介质有效
申请号: | 201911274852.9 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111009237B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 李杰;范志赟;王晓瑞;李岩 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
本公开关于一种语音识别方法、装置、电子设备及存储介质。所述方法包括:从当前说话人的待识别语音数据中提取相应的原始语音特征序列;将原始语音特征序列输入至语音识别模型;对原始语音特征序列进行编码,生成对应的语音特征序列;根据语音特征序列和训练得到的包含多个说话人特征的基础特征组,计算得到当前说话人的说话人特征序列;根据当前说话人的说话人特征序列和语音特征序列,生成目标语音特征序列;对目标语音特征序列进行解码,生成语音识别结果。通过选择多个说话人特征作为基础特征组,当前说话人的说话人特征由这些基础特征计算得到,从而不需要使用单独的模型提取当前说话人的说话人特征,简化了当前说话人的说话人特征获取过程。
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
自动语音识别技术(Automatic Speech Recognition,ASR)是通过算法将人类的语音转化成相应文本的过程。近年来,基于深度学习的语音识别技术迅猛发展。语音识别系统无论从性能上还是鲁棒性上都获得了大幅提升,实际语音识别系统的识别率逐渐接近实用水平,无论是基于语音的产品还是创业公司,以及语音识别技术本身都如雨后春笋搬成长起来。
语音识别领域目前新兴的方法是基于端到端技术。在相关技术中,使用端到端的语音识别系统,通常需要单独构造一个说话人特征提取模块,将提取出的特征作为辅助特征输入到端到端模型。在相关技术中,识别时需要首先使用用户语音提取其特定的说话人特征,这一点在实际应用中较难实现。
发明内容
本公开提供一种语音识别方法、装置、电子设备及存储介质,以至少解决相关技术中使用用户语音提取其特定的说话人特征较难的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音识别方法,包括:
从当前说话人的待识别语音数据中提取相应的原始语音特征序列;
将原始语音特征序列输入至语音识别模型;
对原始语音特征序列进行编码,生成对应的语音特征序列;
根据语音特征序列和训练得到的包含多个说话人特征的基础特征组,计算得到当前说话人的说话人特征序列;
根据当前说话人的说话人特征序列和语音特征序列,生成目标语音特征序列;
对目标语音特征序列进行解码,生成语音识别结果。
根据本公开实施例的第二方面,提供一种语音识别装置,包括:
语音特征提取模块,被配置为执行从当前说话人的待识别语音数据中提取相应的原始语音特征序列;
输入模块,被配置为执行将原始语音特征序列输入至语音识别模型;
编码器模块,被配置为执行对原始语音特征序列进行编码,生成对应的语音特征序列;
注意力模块,被配置为执行根据语音特征序列和训练得到的包含多个说话人特征的基础特征组,计算得到当前说话人的说话人特征序列;
目标语音特征序列生成模块,被配置为执行根据当前说话人的说话人特征序列和语音特征序列,生成目标语音特征序列;
语音识别模块,被配置为执行对目标语音特征序列进行解码,生成语音识别结果。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现上述第一方面任一所述的语音识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911274852.9/2.html,转载请声明来源钻瓜专利网。