[发明专利]基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法在审

专利信息
申请号: 201910909431.2 申请日: 2019-09-25
公开(公告)号: CN110728308A 公开(公告)日: 2020-01-24
发明(设计)人: 彭文杰;余菲;林坤阳;林泽锋;郑东润;范智博;罗家祥 申请(专利权)人: 华南理工大学
主分类号: G06K9/62 分类号: G06K9/62;G10L13/04;G10L15/22;G10L15/26
代理公司: 44245 广州市华学知识产权代理有限公司 代理人: 林梅繁
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中央处理器 导盲系统 语音合成装置 麦克风 道路规划 深度相机 高端 电源 中央处理器输出 目标检测单元 用户语音信息 语音识别单元 语音识别技术 计算机视觉 控制软件 目标检测 图像采集 系统控制 信号传递 语音识别 语音信息 数据处理 深度图 寻物 合成 采集 场景 供电 播放 部署 改进
【权利要求书】:

1.基于改进Yolov2的目标检测和语音识别的交互式导盲系统,其特征在于,包括中央处理器及与其相连的深度相机、高端语音合成装置、麦克风和电源,其中:

中央处理器:用于系统控制、数据处理和信号传递;所述中央处理器上部署有交互式导盲系统的控制软件,包括:目标检测单元、语音识别单元和道路规划单元;

深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图;

高端语音合成装置:用于对所述中央处理器输出的语音信息进行合成,播放寻物结果或道路规划情况;

麦克风:用于采集用户语音信息,并将采集的用户语音信息传送给所述中央处理器;

电源:用于给所述中央处理器供电。

2.根据权利要求1所述的交互式导盲系统,其特征在于,所述目标检测单元基于改进的Yolov2卷积神经网络实现,对特定整理的数据集进行训练,以实现物体定位与分类功能。

3.根据权利要求2所述的交互式导盲系统,其特征在于,所述改进的Yolov2卷积神经网络包括特征提取层和检测层,使用深度可分离卷积操作取代特征提取层的卷积操作,所述深度可分离卷积操作分为逐深度卷积和逐点卷积,逐深度卷积将输入的特征向量根据通道数的维度进行分离操作,形成个数与通道数量相同的分离的特征向量,将分离的特征向量分别与k×k大小的卷积核进行卷积操作,完成该操作以后按原顺序将分离的特征向量融合,再使用1×1的卷积核进行逐点卷积对输出的通道数量进行压缩。

4.根据权利要求3所述的交互式导盲系统,其特征在于,所述改进的Yolov2卷积神经网络特征提取层中的卷积模块block工作流程包括:

①当输入一个特征向量到block中之后,使用1×1的卷积核对其进行通道数量的延伸并使用ReLU6作为其激活函数F(x)=min(max(0,x),6),再使用k×k的卷积核,以所述深度可分离卷积方式进行操作,此时输出的特征向量V1的维度为:c×h×w,其中:c为通道数量,h为特征向量的高度,w为特征向量的宽度;

②将特征向量V1制作一份副本V2,将特征向量V2进行全局池化的操作以得到c×1×1大小的特征向量,再对其输入至两个连续的全连接层进行通道的压缩以及延伸,保持输出的特征向量维度大小不变,将其通过sigmoid函数激活使其所有值缩放至0到1之间构成维度大小为c×1×1的特征向量V3;

③将特征向量V3分别对特征向量V1的每个通道做加权乘法,并使用1×1的卷积核进行通道压缩以使得其通道与原始输入特征向量通道数量相同,再将其两者叠加以保留部分原始特征信息。

5.根据权利要求1所述的交互式导盲系统,其特征在于,所述语音识别单元用于对语音指令编码并输出语音信息,包括唤醒词检测模块、关键词检测模块和语音指导模块,在麦克风的采样点达到一定数目后对音频进行一次处理,在交互式导盲系统初始情况下,语音识别单元为节省功耗,只有唤醒词检测模块工作,其余模块处于待机状态。

6.根据权利要求5所述的交互式导盲系统,其特征在于,所述唤醒词检测模块负责对唤醒词的检测与识别,系统运行经由唤醒词启动,其工作流程包括:

①当用户发出指令的时候,对麦克风采集到的时域信号进行基本处理,包括分帧、加窗、傅里叶变换和取对数等,获取其语谱图;

②对语谱图进行编码,得到信号编码;

③基于信号编码对音频中是否含有唤醒词进行预测,信号编码经过门控循环单元层、全连接层等,中间使用随机失活实现神经网络的正则化,输出音频中含有唤醒词的概率值;

④将唤醒词的概率值与唤醒词阈值作比较,若大于唤醒词阈值则成功唤醒,启动关键词检测模块,暂时关闭唤醒词检测模块,否则系统不作应答,重复唤醒词检测步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910909431.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top