[发明专利]一种语音识别的口语文本生成方法在审
申请号: | 202111333223.6 | 申请日: | 2021-11-11 |
公开(公告)号: | CN114627873A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 沈红峰;方景辉;陈超;姚强;龚利武;张健;潘白浪;张炜;施文杰;万家建;顾一星;朱晓晨;薛天琛;陆夕蒙;张嘉辉;张桂玲;黄悦华 | 申请(专利权)人: | 国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L21/0208 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 314200 浙江省嘉兴市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 口语 文本 生成 方法 | ||
1.一种语音识别的口语文本生成方法,其特征在于,包括以下步骤:
步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;
步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;
步骤S3:通过语音识别模型与分离模型对机器语言联合训练;
步骤S4:进行后端识别处理;
步骤S5:生成口语文本。
2.根据权利要求1所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11:对输入的音频流进行分析,确定语音的起始和终止的位置进行语音识别;
步骤S12:识别语音中的噪声并进行消除。
3.根据权利要求1所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤3包括以下步骤:
步骤S31:深度全序列卷积神经网络,使用多个卷积层对整句语音进行建模;
步骤S32:进行word-embedding语义建模,筛选语义不顺语句;
步骤S33:采用加噪训练方式引入口语噪音形式,构建书面语与口语文本对应关系。
4.根据权利要求3所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤S33中的构建书面语与口语文本对应关系为:通过在书面语上手动引入口语噪声,所述口语噪声包括回读、倒装、语气词、强调以及反复,生成海量的口语预料。
5.根据权利要求1所述的一种语音识别的口语文本生成方式,其特征在于,所述步骤S4包括以下步骤:
步骤S41:汇入词汇识别系统,所述词汇识别系统设置有不同场景下的词汇数据以及设置有声纹检测模块,进行声纹特征消除;
步骤S42:置信度输出,通过对返回结果进行识别来判断识别结果的准确性;
步骤S43:多识别技术,通过步骤S42的置信度输出判断的结果,通过置信度结果排行输出,给以二度选择的权利;
步骤S44:热词识别,通过热词感应系统进行单次的检验或者校准。
6.根据权利要求1所述的一种语音识别的口语文本生成方式,其特征在于,所述步骤S5包括以下步骤:
步骤S51:进行语义解析系统的语音解析,所述语义解析系统包括文本解析模块,消除重复文本信息并进行分类;所述语义解析系统包括语义特征提取模块,根据语言中的词句重要性进行排序;
步骤S52:根据步骤S51的分类结果和重要性排序结果生成口语文本。
7.根据权利要求3所述的一种语音识别的口语文本生成方式,其特征在于,所述步骤S33的加噪训练方式为多模态语音识别与分离的联合训练方法。
8.根据权利要求5所述的一种语音识别的口语文本生成方式,其特征在于,所述步骤S44的热词识别为可变化的互联网热词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司,未经国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111333223.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于低时延视频编码的自适应质量提升
- 下一篇:液剂箱以及洗衣机