[发明专利]一种语音转文字的处理方法、系统及设备在审
申请号: | 202011003420.7 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112133288A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 胡增;孙有效;刘雨晴 | 申请(专利权)人: | 中用科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/183;G10L15/26;G10L25/03;G06F40/289;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 金凯 |
地址: | 230601 安徽省合肥市经济技术*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转文 处理 方法 系统 设备 | ||
1.一种语音转文字的处理方法,包括以下步骤:
步骤一:采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;
步骤二:获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;
步骤三:对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;
步骤四:对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。
2.根据权利要求1所述的语音转文字的处理方法,其特征在于:进行预加重处理时,将经过声道转换处理的原始声音通过高通滤波器,得到加重音频信号
s(n)=x(n)-αx(n-1);
其中x(n)是原始声音信号在n时刻的采样值,x(n-1)是原始声音信号在n-1时刻的采样值,0.95≤α≤0.99;
所述高通滤波器的传递函数H(z)=1-a*z-1;a为预加重系数,z为对所述加重音频信号进行处理过程中的变化频域。
3.根据权利要求1所述的语音转文字的处理方法,其特征在于:对原始声音进行预加重处理后得到加重音频信号;对加重音频信号进行加窗处理时,将加重音频信号与布莱克曼窗函数相乘得到加窗声音信号,其中布莱克曼窗函数
4.根据权利要求1所述的语音转文字的处理方法,其特征在于:提取频谱图的声学特征时,提取MFCC特征、PLP特征或FBANK特征中的任意一种或任意多种。
5.根据权利要求1所述的语音转文字的处理方法,其特征在于:对预处理声音进行小波变换并生成频谱图时,采用的小波函数为
6.根据权利要求1所述的语音转文字的处理方法,其特征在于:采用高斯混合模型对声学特征进行向量化,并得到所述声学特征向量;步骤三中,将声学特征向量输入到声学模型和语音模型中。
7.一种语音转文字的处理系统,其特征在于,包括:
声学模型生成模块,其采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;
语言模型生成模块,其获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;
声音预处理模块,其对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;
文本生成模块,其对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中用科技有限公司,未经中用科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003420.7/1.html,转载请声明来源钻瓜专利网。