[发明专利]一种语音识别的方法和装置有效
申请号: | 201710056800.9 | 申请日: | 2017-01-25 |
公开(公告)号: | CN108364635B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 李洋;欧阳宏宇;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L15/26;G10L25/18 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
1.一种语音识别的方法,其特征在于,包括:
获取多个语音数据包,所述多个语音数据包的包长小于第一预设长度;
分别确定每个语音数据包中每帧语音信号的特征信息;
依据所述特征信息,对所述每帧语音信号进行识别;
其中,所述依据所述特征信息,对所述每帧语音信号进行识别的步骤包括:
依据所述特征信息,识别所述每帧语音信号对应的文本信息;
将所述多个语音数据包中每帧语音信号对应的文本信息组合为目标文本信息。
2.根据权利要求1所述的方法,其特征在于,所述获取多个语音数据包的步骤包括:
接收客户端发送的多个语音数据包,所述多个语音数据包由所述客户端按照所述包长将用户输入的语音信号数据进行切分并压缩后获得。
3.根据权利要求2所述的方法,其特征在于,在所述获取多个语音数据包的步骤后,还包括:
对所述语音数据包进行解压缩。
4.根据权利要求1-3任一所述的方法,其特征在于,所述分别确定每个语音数据包中每帧语音信号的特征信息的步骤包括:
分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征;
采用所述PLP特征和基频特征,生成所述每帧语音信号的特征信息。
5.根据权利要求4所述的方法,其特征在于,所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤包括:
获取缓存的语音数据包;
采用所述缓存的语音数据包和当前的语音数据包,分别确定每帧语音信号的PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征。
6.根据权利要求5所述的方法,其特征在于,所述采用所述PLP特征和基频特征,生成所述每帧语音信号的特征信息的步骤包括:
采用所述PLP原始特征、PLP一阶差分特征和PLP二阶差分特征,生成PLP特征;
采用所述基频原始特征、基频一阶差分特征和基频二阶差分特征,生成基频特征;
对所述PLP特征和基频特征进行拼接,生成所述每帧语音信号的特征信息。
7.根据权利要求4所述的方法,其特征在于,所述基频特征具有对应的平滑区间,在所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤前,还包括:
确定所述基频特征的平滑区间,所述平滑区间小于第二预设长度。
8.一种语音识别的装置,其特征在于,包括:
获取模块,用于获取多个语音数据包,所述多个语音数据包的包长小于第一预设长度;
特征提取模块,用于分别确定每个语音数据包中每帧语音信号的特征信息;
识别模块,用于依据所述特征信息,对所述每帧语音信号进行识别;
其中,所述识别模块包括:
识别子模块,用于依据所述特征信息,识别所述每帧语音信号对应的文本信息;
组合子模块,用于将所述多个语音数据包中每帧语音信号对应的文本信息组合为目标文本信息。
9.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
接收子模块,用于接收客户端发送的多个语音数据包,所述多个语音数据包由所述客户端按照所述包长将用户输入的语音信号数据进行切分并压缩后获得。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还包括:
解压缩子模块,用于对所述语音数据包进行解压缩。
11.根据权利要求8-10任一所述的装置,其特征在于,所述特征提取模块包括:
特征提取子模块,用于分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征;
生成子模块,用于采用所述PLP特征和基频特征,生成所述每帧语音信号的特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710056800.9/1.html,转载请声明来源钻瓜专利网。