[实用新型]一种嵌入式音频播放装置有效
申请号: | 202020594937.7 | 申请日: | 2020-04-20 |
公开(公告)号: | CN212588503U | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 张时嘉;曾娟鹃;张亦农;王海业;由海 | 申请(专利权)人: | 南京西觉硕信息科技有限公司 |
主分类号: | H04R3/00 | 分类号: | H04R3/00;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211500 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 嵌入式 音频 播放 装置 | ||
本实用新型提供一种嵌入式音频播放装置,包括扬声器、通信单元、控制单元、存储单元、语音识别单元及提醒单元,其中,语音识别单元内设置有关键词识别模型单元,用于存储基于场景的关键词识别模型。所述语音识别单元自所述音频流中提取语音信号,并采用所述基于场景的关键词识别模型实时检测所述语音信号中是否包含所述关键词。相对现有技术,本实用新型可独立完成基于场景的连续语音关键信息实时检测、提醒、录制和回放,使用方便、便捷且私密性好。
技术领域
本实用新型涉及嵌入式设备技术领域,尤其涉及一种嵌入式音频播放装置。
背景技术
当前,互联网、移动通信网络已经进入千家万户,遍布人们生活的角角落落。基于这些远程通信平台的网络会议、网络教学、网络商务洽谈、网络销售等各种远程音视频应用也随着计算机网络技术、音视频处理技术和以片上系统SoC为核心的嵌入式设备等相关技术和产品的高度成熟而日渐兴起。这些配合手机、耳机、平板电脑、音箱等嵌入式设备使用的远程音视频应用,完全打破了地域的限制,使身处异地的人们可以随时实现实时的语音和视频的交流互动,为人们的生产生活提供了极大的便利。例如在当前疫情汹涌的情势下,学生通过网络教学平台得以继续在家上课。学生们经常会通过头戴式耳机参加网课,并在授课过程戴着耳机在一定范围内随意走动。但不利的是,网络教学时因为缺少课堂氛围,老师也无法及时观察到每个孩子的听课状态,因此非常依赖学生个人的自律性。而学生一旦走神或私下玩耍,就没有人能够给予及时提醒和纠正,而老师传授的课业内容也被错过了。这种情形在网络视频会议时其实也类似地存在,例如会议中因为私事的打扰或者接听电话等,而错失会议的关键的语音信息。通常,在手机或者电脑上的网课、视频会议软件中没有针对对端说话者的内容的关键信息提醒功能。即使有,本地用户也未必在手机或电脑边上。因此,非常有必要在头戴式耳机或者音箱这类最贴近本地用户的手机或电脑的附属型设备中直接实现关键信息提醒的功能,使本地用户的思维能在第一时间内被拉回网课或视频会议。
近年来,语音识别技术被越来越多的用于语音监测和识别重要信息中。特别是在摩尔定律和大数据的强力支撑下,基于人工智能技术的语音识别已经从浅层识别迈入了深度学习阶段。基于深度学习理论和神经网络模型的语音识别技术可输出更高正确率的识别结果,因此在智能语音唤醒、智能语音控制、智能语音对话等诸多领域被广泛应用。
但实用新型人深入研究后发现,如果将人工智能的语音识别技术用于当前远程音视频应用中实现关键语音信息提醒功能,却存在诸多技术瓶颈,例如:
第一方面,人工智能的语音识别技术中,语音识别模型是保障识别准确率的关键。而现在的各种智能语音唤醒、智能语音控制、智能语音对话技术应用中,往往都是采用通用版的语音识别模型,即由设备/应用的提供方预先完成语音识别模型的训练,重要信息的判断标准、训练样本的选择,全部都由设备/应用的提供方决定。如果将这种通用版的语音识别模型简单用于远程音视频应用中,难以适应各种不同的应用场景,甚至可能因为无法保障识别准确率而导致糟糕的用户体验。
第二方面,人工智能的语音识别技术,特别是深度学习技术的实现,需要大量高精度计算,这依赖于硬件系统在内存、计算开销和功耗等方面的强大支撑。因此目前这类技术大多是用在GPU、FPGA等高成本、高功耗、高性能的大型专用计算平台上,而在普通消费者使用得最多的各种低功耗、低性能的嵌入式设备(如耳机、便携式音箱、电话手表、会议终端设备等等手机或电脑的附属型设备)进行不依赖于手机或者云端的、独立的关键词识别却非常少见,或者仅采用较简单的孤立词或者固定关键词集合,限定句型识别等技术,实现一些简单、低层次的语音识别功能,如,简单的语音唤醒、智能家居语音控制等,却未能在复杂且连续的语音流中实现关键语音信息提醒功能。如目前市场上为大家所熟知的一些智能语音助理,均是将嵌入式设备采集到的语音流上载到手机或者云端后进行识别,通常只能实现单一语句的语音识别;而将采集的语音流上传到云端或远端设备识别后再返回结果,通常因延时长而导致用户体验差,并且用户的隐私难以得到保障。究其原因,其中很重要的一点是嵌入式设备硬件算力和功耗限制,难以为现行的大词汇量连续语音识别技术提供足够的支撑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京西觉硕信息科技有限公司,未经南京西觉硕信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202020594937.7/2.html,转载请声明来源钻瓜专利网。