[发明专利]基于树莓派边缘计算的中文语音交互无感控制系统和方法在审
申请号: | 202010698358.1 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111833878A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 柏财通;崔翛龙;李爱 | 申请(专利权)人: | 中国人民武装警察部队工程大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06N3/04;G06N3/08;G10L13/02;G10L15/06;G10L15/16;G10L15/18;G10L15/30;G10L25/18;G10L25/30 |
代理公司: | 西安众和至成知识产权代理事务所(普通合伙) 61249 | 代理人: | 强宏超 |
地址: | 710086 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 树莓派 边缘 计算 中文 语音 交互 控制系统 方法 | ||
本发明公开一种基于树莓派边缘计算的中文语音交互无感控制系统和方法,基于树莓派边缘计算的中文语音交互无感控制系统,包括边缘端、移动端、外接控制模块和边缘计算检测与调度模块;本发明的语音识别模型与语音合成模型的模型体积小,可实现边缘计算,可离线工作,直接部署在移动端设备中,不依赖网络,在离线情况下可实现语音合成与语音识别的功能,解决网络不通畅或者遭受攻击等恶劣条件下语音识别和交互功能实现在恶劣环境下进行中文语音识别交互的功能。
技术领域
本发明属于计算机技术领域,涉及语音识别技术,具体涉及一种基于树莓派边缘计算的中文语音交互无感控制系统和方法。
背景技术
语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
语音合成,又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。
对于后端系统中的参数合成而言,该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模,在合成阶段通过时长模型和声学模型预测声学特征参数,对声学特征参数做后处理,最终通过声码器恢复语音波形。该方法可以在语音库相对较小的情况下,得到较为稳定的合成效果。缺点在于统计建模带来的声学特征参数“过平滑”问题,以及声码器对音质的损伤。
对于后端系统中的拼接合成而言,训练阶段与参数合成基本相同,在合成阶段通过模型计算代价来指导单元挑选,采用动态规划算法选出最优单元序列,再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段,可以最大限度保留语音音质;缺点是需要的音库一般较大,而且无法保证领域外文本的合成效果。
传统的语音合成系统,都是相对复杂的系统,比如,前端系统需要较强的语言学背景,并且不同语言的语言学知识还差异明显,因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解,由于传统的参数系统建模时存在信息损失,限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高,同时需要人工介入制定很多挑选规则和参数。
这些都促使端到端语音合成的出现。端到端合成系统直接输入文本或者注音字符,系统直接输出音频波形。端到端系统降低了对语言学知识的要求,可以很方便在不同语种上复制,批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。
现有的缺语音交互系统缺点是:
1.模型太大,难以部署在算力有限的移动端。
2.识别为泛化结果,存在识别误差,对语音控制准确度不够,鲁棒性差。
3.架构不灵活,大部分为云端架构。
4.私有化部署成本高昂。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民武装警察部队工程大学,未经中国人民武装警察部队工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010698358.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能处理保险条款的方法
- 下一篇:一种基于联邦学习的分心驾驶识别方法