[发明专利]一种语音识别的口语文本生成方法在审
申请号: | 202111333223.6 | 申请日: | 2021-11-11 |
公开(公告)号: | CN114627873A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 沈红峰;方景辉;陈超;姚强;龚利武;张健;潘白浪;张炜;施文杰;万家建;顾一星;朱晓晨;薛天琛;陆夕蒙;张嘉辉;张桂玲;黄悦华 | 申请(专利权)人: | 国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L21/0208 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 314200 浙江省嘉兴市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 口语 文本 生成 方法 | ||
本发明公开了一种语音识别的口语文本生成方法,包括步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;步骤S3:通过语音识别模型与分离模型对机器语言联合训练;步骤S4:进行后端识别处理;步骤S5:生成口语文本;本发明有效解决了目前口语生成文本不够准确的问题,相较于普通的口语文本生成方法具有高准确性;更接近于人的口语叙述方式,可辨别性高;具有多种口语文本的生成,可供使用者选择,选择度高;进行自我学习,语义识别随使用时间稳定性和准确度均有提高。
技术领域
本发明涉及口语文本生成方式,尤其涉及一种语音识别的口语文本生成方法。
背景技术
随着计算机技术和网络技术的发展和广泛应用,存在着很多需要进行语音识别的情况。一般来说,语言分为口语和书面语,当前情况下的语音识别系统多对书面语进行阐述或者而且,伴随着使用人员的范围增加,逐字识别的方法显然不适用于目前的网络环境,然而目前存在识别效率低。一般来说,口语比书面语更加依赖语言环境以及更难转换为机器语言。
现有的文本转换方法在将书面语转换为口语时,一般是直接在书面文本上添加了口语中常见的副语言信息,转换后的口语化文本并不符合语言的表达习惯,有时在书面文本中出现了口语化的副语言信息反而会让用户感到生硬,拗口,表达不流畅等感觉,影响用户体验。
现有的文本转换方式对文本并没有进行系统化的学习,只是机械性地增加口语化的阐述方式。
对于真正口语的情况来说显得不够真实。并且进行语义转换的同时也存在一定障碍。
例如,一种在中国专利文献上公开的“将书面文本转换为口语文本的方法及系统”,其公告号“CN201710987858.5”,包括一种将书面文本转换为口语文本的方法及系统,通过副词等方式对书面语的语言习惯进行训练然后转换为口语文本,缺少对整体性以及语言习惯的考究,不够自然准确。
发明内容
本发明主要解决现有的语音识别的口语文本生成方式中存在的精确度不够以及对于现有的口语文本识别能力的欠缺的补偿;提供一种具有语音语义学习能力的基于语音识别的口语文本生成方式,降低了语音识别中对于口语文本的错误识别,提高了口语文本生成的准确度以及精确度。
本发明的上述技术方案主要是通过下述技术方案得以解决的:语音识别的口语文本生成方法,包括以下步骤:
步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;
步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;
步骤S3:通过语音识别模型与分离模型对机器语言联合训练;
步骤S4:进行后端识别处理;
步骤S5:生成口语文本。
先进行去噪以及端点检测得到一条完整的语音信息,通过声音信号与机械语言的转换得到一串完整的包含声音信号的机械语言。再通过语音识别模型与分离模型的综合训练提高机械语言转换文本的准确性以及效率。得到一段较为完整的口语文本。
最后通过后端识别处理得到完整的口语文本,实现语音识别的口语文本生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司,未经国网浙江省电力有限公司平湖市供电公司;平湖市通用电气安装有限公司;国网浙江省电力有限公司嘉兴供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111333223.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于低时延视频编码的自适应质量提升
- 下一篇:液剂箱以及洗衣机