[发明专利]设备唤醒方法、装置、智能终端及设备唤醒系统在审
申请号: | 202111036612.2 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113889101A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 宋士奇;汪进;毛跃辉 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/32;G06N3/04;G06N3/08 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 涂凤琴 |
地址: | 519000*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 设备 唤醒 方法 装置 智能 终端 系统 | ||
1.一种设备唤醒方法,其特征在于,包括:
获取每个设备接收的唤醒词对应声音能量值;
计算每个设备与人员之间的距离信息;
根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
根据各个设备的响应分数确定最佳设备进行唤醒。
2.根据权利要求1所述的设备唤醒方法,其特征在于,所述获取每个设备接收的唤醒词对应声音能量值,包括:
根据接收到的唤醒词对应声音绘制声音能量波形;
根据所述声音能量波形的幅度值确定声音能量值。
3.根据权利要求1所述的设备唤醒方法,其特征在于,所述计算每个设备与人员之间的距离信息,包括:
获取环境视频图像;
将所述环境视频图像输入预设人物目标识别模型得到人物目标判断结果;
若所述人物目标判断结果为存在人物目标,则获取人物目标框;
计算所述人物目标框在人物目标所在图像的占比得到设备与人员之间的距离信息。
4.根据权利要求3所述的设备唤醒方法,其特征在于,所述预设人物目标识别模型包括多个卷积层、多个瓶颈结构和多个连接层,所述将所述环境视频图像输入预设人物目标识别模型得到人物目标判断结果,包括:
将所述环境视频图像输入第一卷积层处理得到所述环境视频图像的浅层纹理信息;
将所述浅层纹理信息依次通过多个瓶颈结构后得到深层次图像特征;
将所述深层次图像特征进行上采样操作确定所述环境视频图像中感兴趣区域;
将所述感兴趣区域输入第一连接层与第二卷积层处理得到中间处理结果;
将所述中间处理结果再次进行上采样操作后输入第二连接层与第三卷积层处理,得到人物目标判断结果。
5.根据权利要求4所述的设备唤醒方法,其特征在于,所述确定所述环境视频图像中感兴趣区域,包括:
采用opencv处理方法和/或神经网络卷积方法提取感兴趣区域;
基于规则或不规则原则确定感兴趣区域边界。
6.根据权利要求4所述的设备唤醒方法,其特征在于,还包括:
使用第一卷积压缩所述多个卷积层输入的通道数目。
7.根据权利要求6所述的设备唤醒方法,其特征在于,在所述多个卷积层计算完成后,还包括:
使用第二卷积复原所述多个卷积层输出的通道数目。
8.根据权利要求4所述的设备唤醒方法,其特征在于,所述多个瓶颈结构包括:
瓶颈结构A、瓶颈结构B、多个瓶颈结构C、多个瓶颈结构D和多个瓶颈结构E;
其中,瓶颈结构A、瓶颈结构B、多个瓶颈结构C、多个瓶颈结构D和多个瓶颈结构E包括的卷积数量不同。
9.根据权利要求3所述的设备唤醒方法,其特征在于,所述获取人物目标框,包括:
通过data配置文件中设置的anchor尺度选择与人物目标匹配的框体大小作为人物目标框。
10.根据权利要求1所述的设备唤醒方法,其特征在于,所述根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数,包括:
响应分数=第一权重系数*人员与设备之间的距离分数+第二权重系数*设备接收的唤醒词对应声音能量值分数,其中人员与设备之间的距离分数为设备与人员之间的距离信息归一化处理结果,设备接收的唤醒词对应声音能量值分数为设备接收的唤醒词对应声音能量值归一化处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111036612.2/1.html,转载请声明来源钻瓜专利网。