[发明专利]一种计算机可读存储介质和应用该介质的语音交互音箱有效
申请号: | 201811242842.2 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109545237B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 陈洪太;叶志辉;张鑫 | 申请(专利权)人: | 广东思派康电子科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0232;G10L21/034;G10L15/22;G10L15/28;G10L15/20 |
代理公司: | 东莞市华南专利商标事务所有限公司 44215 | 代理人: | 刘克宽 |
地址: | 523000 广东省东莞市松*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 可读 存储 介质 应用 语音 交互 音箱 | ||
本发明涉及智能音箱技术领域,特别涉及一种计算机可读存储介质和应用该介质的语音交互音箱,该介质内存有计算机程序,该计算机程序可被语音交互音箱的处理器执行。该语音交互音箱,能够通过设置参考信号来修正音箱不同放音音量下的回音误差,得到的主控制器直接输出的实际音频信号与麦克风阵列采集的外部回音的对应关系更为准确,从而更准确地获取人声,使得音箱能够根据收到的更准确的人声来识别唤醒命令,提高音箱的唤醒率。
技术领域
本发明涉及智能音箱技术领域,特别涉及一种计算机可读存储介质和应用该介质的语音交互音箱,该介质内存有计算机程序,该计算机程序可被语音交互音箱的处理器执行。
背景技术
随着人工智能及语音交互技术的飞速发展,智能音箱已然成为一个市场的新热点,以谷歌、亚马逊、苹果为代表的海外巨头及小米、喜马拉雅、百度、腾讯等国内公司都积极布局智能音箱产品。在国内,因为价格的激烈竞争,智能音箱的硬件设计受成本所限逐渐简化,音频处理的硬件结构简陋导致很多低成本的语音交互类音箱拾音效果很差,往往因为无法彻底消除麦克风收到的回音信号,使得音箱识别到的人声唤醒命令误差较大,降低了音箱被唤醒的几率。
发明内容
如图1所示,现有的语音交互音箱主要包括麦克风阵列、主控制器、功放控制单元、音频输出单元和声音采集单元。其中,麦克风阵列用于收集人声及环境噪音、音箱自身的回音等,一般语音交互音箱最少包含2个麦克风,有些音箱可能有多达6个或者7个;主控制器用于进行麦克风的信号收集、回音消除处理、降噪处理、语音识别、合成等;功放控制单元用于通过主控制器进行开关控制及音量大小调整、EQ调节等;音频输出单元则主要是指扬声器或喇叭单元等音频播出设备。声音采集单元主要用在硬件结构较为完整的语音交互音箱中,其将播放输出的信号进行回采,反馈给主控制器,从而进行回音消除,很多廉价音箱主要通过软件算法来进行回音消除,会将该部分硬件电路舍弃掉。
发明人发现,在硬件电路的回音消除方面,是简单的将麦克风阵列收到的人声+外部回音 (图1中信号2)直接抵消掉硬件电路内部的声音采集单元采集的音频信号(图1中信号3) 得出人声;在纯软件回音消除算法方面,则是简单的将麦克风阵列收到的人声+外部回音(图 1中信号2)抵消掉实际音频信号(图1中信号1)来得出人声。然而,主控制器直接输出的实际音频信号(图1中信号1)通过功放控制单元、音频输出单元及音箱壳体材料、网布等一系列途径传输后,播放出去的音频信号作为外部回音(图1中信号2)和人声一起被远端的麦克风阵列采集,这时采集到的外部回音的音频信号已经受到众多干扰,特别是在音箱自身播放音频声音较大的情况下,与实际音频信号仅仅是近似,而不可能相等,这是回音消除不彻底的主要原因。
发明人想到,如果能够获取主控制器直接输出的实际音频信号与麦克风阵列采集的外部回音的对应关系,在回音消除时,就可以通过上述关系把实际音频信号直接变换为外部回音 (图1中信号2),然后在麦克风阵列收到的人声+外部回音(图1中信号2)中直接抵消掉外部回音(图1中信号2),得到准确的人声信号。但是在实际测试中,这种回音消除方式还是存在较大的误差。发明人发现,上述误差主要出现在音箱自身放音音量较大的时候,以及放音音量变化较为频繁的时候,由此,发明人想到根据音箱放音音量的不同采用不同的回音消除方式,把音箱各个音量下的回音单独进行消除,从而更准确地获取人声。
本发明的目的在于使语音交互音箱在存在自身放音干扰的情况下能准确获取人声。
为实现上述目的,提供一种计算机可读存储介质,其存储有用于在存在音箱自身放音干扰的情况下能准确获取人声的计算机程序,该程序被处理器执行时实现以下步骤:
音量扫频步骤,其以音箱的不同放音音量播放标准音频信号,并记录在不同放音音量下音箱麦克风阵列接收的回音信号;
频谱曲线生成步骤,其获取播放的标准音频信号和收到的回音信号的幅值的偏差值,根据该偏差值与频率的关系得到不同放音音量下的频谱-偏差值关系曲线;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东思派康电子科技有限公司,未经广东思派康电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811242842.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进时域编码与频域编码之间的分类
- 下一篇:一种基于清洁机器人的语音去噪装置