[发明专利]语音控制方法及装置在审
申请号: | 201811543052.8 | 申请日: | 2018-12-17 |
公开(公告)号: | CN111326152A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 张文涛;乔慧丽 | 申请(专利权)人: | 南京人工智能高等研究院有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/25;G10L15/26 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 孟潭 |
地址: | 210038 江苏省南京市南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 控制 方法 装置 | ||
1.一种语音控制方法,包括:
获取用户的语音特征数据,并获取与所述语音特征数据对应的唇部特征数据;
基于所述语音特征数据和所述唇部特征数据确定控制终端的控制词;
控制所述终端执行与所述控制词相对应的操作。
2.根据权利要求1所述的方法,其中,所述获取与所述语音特征数据对应的唇部特征数据,包括:
采集包含所述用户的唇部动作变化的连续多帧图像,针对所述连续多帧图像中的每一帧图像,提取用于描述唇部形状的多个特征点;
对所述连续多帧图像中的每一帧图像的多个特征点的坐标进行归一化处理,得到所述唇部特征数据。
3.根据权利要求2所述的方法,还包括:
确定所述用户所处环境的照度是否大于第一阈值,并确定所述连续多帧图像中的每一帧图像中人脸面向的角度是否小于或等于第二阈值,
其中,若所述照度大于所述第一阈值且所述角度小于或等于所述第二阈值,则执行所述基于所述连续多帧图像提取所述唇部特征数据。
4.根据权利要求3所述的方法,还包括:
利用麦克风阵列采集所述用户的声音;
若所述角度大于所述第二阈值,则利用到达时间差方法TDOA确定所述声音的声源位置;
根据所述声源位置调整用于拍摄所述连续多帧图像的摄像机的摄像角度。
5.根据权利要求2所述的方法,还包括:
确定所述用户的声音的能量是否大于第三阈值,并确定所述声音持续的时间是否大于第四阈值,
其中,若所述声音的能量大于所述第三阈值且所述声音持续的时间大于所述第四阈值,则执行所述获取用户的语音特征数据。
6.根据权利要求5所述的方法,还包括:
确定所述连续多帧图像中两个相邻图像的唇部特征数据之间的相似度是否低于第五阈值;
若所述相似度低于所述第五阈值,并且所述声音的能量小于或等于所述第三阈值或所述声音持续的时间小于或等于所述第四阈值,则在预设的时间内重复采集所述用户的声音。
7.根据权利要求2所述的方法,其中,所述控制词包括唤醒词,所述唇部特征数据包括多个唇部特征向量,所述语音特征数据包括多个声学特征向量,
其中,所述基于所述语音特征数据和所述唇部特征数据确定控制终端的控制词,包括:
利用所述多个唇部特征向量和所述多个声学特征向量得到多个组合特征向量;
利用唤醒词识别模型对所述多个组合特征向量进行唤醒词识别,得到所述唤醒词。
8.根据权利要求7所述的方法,还包括:
确定所述用户的声音的能量是否小于第六阈值,并确定所述声音的噪音程度是否大于第七阈值,
其中,所述利用所述多个唇部特征向量和所述多个声学特征向量得到多个组合特征向量,包括:
若所述声音的能量小于所述第六阈值或者所述声音的噪音程度大于所述第七阈值,则确定所述多个唇部特征向量对应的第一权重值和所述多个声学特征向量对应的第二权重值,其中,所述第一权重值大于所述第二权重值;
分别采用所述第一权重值和所述第二权重值对所述多个唇部特征向量和所述多个声学特征向量进行加权计算,得到所述多个组合特征向量。
9.根据权利要求7所述的方法,还包括:
确定所述用户所处环境的照度是否小于第八阈值,
其中,所述利用所述多个唇部特征向量和所述多个声学特征向量得到多个组合特征向量,包括:
若所述照度小于所述第八阈值,则确定所述多个唇部特征向量对应的第三权重值和所述多个声学特征向量对应的第四权重值,其中,所述第三权重值小于所述第四权重值;
分别采用所述第三权重值和所述第四权重值对所述多个唇部特征向量和所述多个声学特征向量进行加权计算,得到所述多个组合特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京人工智能高等研究院有限公司,未经南京人工智能高等研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811543052.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防外漏低温阀门
- 下一篇:电视终端旋转控制的方法、装置及计算机存储介质