[发明专利]语音定向识别交互方法、装置、设备及介质有效
申请号: | 201910466749.8 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110188179B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 嵇望;汪斌;林达;李林峰 | 申请(专利权)人: | 浙江远传信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G10L15/26;G10L21/0208 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 郑思思 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 定向 识别 交互 方法 装置 设备 介质 | ||
1.一种语音定向识别交互方法,其特征在于,包括如下步骤:
获取采集到的语音文本内容;
获取同时满足图像采集角度和采集距离的人脸图像;
根据所述语音文本内容和所述人脸图像,判断是否作出回复;
当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别;
所述人脸图像的采集步骤如下:对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集。
2.如权利要求1所述的语音定向识别交互方法,所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型,通过输入人脸的眼部特征匹配相应角度,最后得到人脸的3D角度信息。
3.如权利要求1所述的语音定向识别交互方法,其特征在于,所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强,具体为:将声音信号进行能量归一化,然后通过固定波束形成器产生主瓣上的正向语音参考信号,并通过旁瓣消除器产生噪声参考信号,最后利用噪声抵消器将消除主瓣信号上的噪声成分。
4.一种语音定向识别交互装置,其特征在于,包括:
语音拾取设备,用于定向拾取正前方的声音信号,并进行语音识别,得到语音文本内容;
图像采集设备,预先设置有图像采集角度和采集距离,并采集同时满足所述图像采集角度和所述采集距离的人脸图像;
其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别;
对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集;
处理单元,用于获取所述语音文本内容和所述人脸图像,并判断是否作出回复;当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。
5.如权利要求4所述的语音定向识别交互装置,其特征在于,所述语音拾取设备定向拾取的收音范围为:收音角度60-70度,收音距离小于等于1m。
6.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程 序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江远传信息技术股份有限公司,未经浙江远传信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910466749.8/1.html,转载请声明来源钻瓜专利网。