[发明专利]家电设备的多模态交互方法及系统在审
申请号: | 201910616247.9 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110335600A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 刘明华;游忍;张欢欢;展华益;周建波 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06K9/00 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 郝迎宾 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音交互功能 多模态交互 家电设备 语音活动 语音交互 语音信号 说话 检测 注视 激活 技术方案要点 服务选择 图像特征 图像信号 意图识别 用户语音 语音识别 语音特征 自动判断 误识别 家用电器 存储 图像 帮助 服务 | ||
1.家电设备的多模态交互方法,其特征在于,包括以下步骤:
S1.获取当前环境下的图像及语音信号;
S2.根据语音信号,检测是否存在语音活动;
S3.如果检测到存在语音活动,根据图像信号,判断是否有人正注视设备且在说话;
S4.如果检测到有人正注视设备且在说话,则启动语音交互功能,并存储当前用户语音特征和图像特征;
S5.在启动语音交互功能情况下,根据语音特征,识别当前说话人的说话内容;
S6.在启动语音交互功能情况下,采用意图识别,判断当前说话人的意图并提供相应的服务。
2.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S1中,通过家电设备内置的语音接收器装置,获取当前环境下的语音信号;通过家电设备内置的摄像头装置,获取当前环境下的图像信号。
3.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S2具体包括以下步骤:
S201.提取语音信号传统特征或深度特征;
S202.基于门限、统计模型及机器学习对特征进行判决,检测是否存在语音活动。
4.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S3具体包括以下步骤:
S301.根据所述图像信号,用计算机视觉技术计算当前说话人的人脸朝向,判断当前环境中是否有人在正注视设备;
S302.如果有人在正注视设备,根据图像信号,利用计算机视觉技术计算判断注视设备的人是否在说话。
5.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S4中,所述语音特征包括说话人的年龄、性别及身份;所述图像特征包括说话人的人脸、位置、性别、年龄及身份。
6.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S5中,通过提取语音特征中的语音参数,识别当前说话人的说话内容。
7.根据权利要求1所述的家电设备的多模态交互方法,其特征在于,步骤S6具体包括以下步骤:
S601.采用意图识别,分析说话内容,提取当前说话人的意图;
S602.家电设备内置命令词数据库;
S603.将当前说话人的意图与数据库匹配,确认用户想输入的命令;
S604.提供当前说话人所需的服务。
8.家电设备的多模态交互系统,应用于权利要求1-7任意一项所述的家电设备的多模态交互方法,其特征在于,包括信号获取模块、说话人检测模块、语音交互模块、特征存储模块、语音识别模块及意图识别模块,信号获取模块与说话人检测模块相连,说话人检测模块与语音交互模块相连,语音交互模块与特征存储模块相连,特征存储模块与语音识别模块相连,语音识别模块和意图识别模块相连;
所述信号获取模块,用于获取语音及图像信号;
所述说话人检测模块,用于判断是否有人正在对家电设备说话;
所述语音交互模块,用于根据所述图像、语音信号,判断是否启动语音交互功能;
所述特征存储模块,用于存储当前说话人的语音特征及图像特征;
所述语音识别模块,用于识别用户说话内容;
所述意图识别模块,用于理解用户意图,推荐服务内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910616247.9/1.html,转载请声明来源钻瓜专利网。