[发明专利]家电设备的多模态交互方法及系统在审
申请号: | 201910616247.9 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110335600A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 刘明华;游忍;张欢欢;展华益;周建波 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06K9/00 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 郝迎宾 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音交互功能 多模态交互 家电设备 语音活动 语音交互 语音信号 说话 检测 注视 激活 技术方案要点 服务选择 图像特征 图像信号 意图识别 用户语音 语音识别 语音特征 自动判断 误识别 家用电器 存储 图像 帮助 服务 | ||
本发明提出一种家电设备的多模态交互方法及系统,属于家用电器语音识别领域。本发明解决了传统单一的语音交互存方式在的误识别、依赖激活词和交互不友好的问题,其技术方案要点为:获取当前环境下的图像及语音信号;根据语音信号,检测是否存在语音活动;如果检测到存在语音活动,根据图像信号,判断是否有人正注视设备且在说话;如果检测到有人正注视设备且在说话,则启动语音交互功能,并存储当前用户语音特征和图像特征;在启动语音交互功能情况下,根据语音特征,识别当前说话人的说话内容;并且,采用意图识别,判断当前说话人的意图并提供相应的服务。能够自动判断是否需要启动语音交互,无需激活词,并能够帮助用户进行服务选择。
技术领域
本发明涉及家用电器语音识别技术,特别涉及家电设备的多模态交互方法及系统的技术。
背景技术
在智能设备交互过程中,目前较常用的交互方式是语音交互,通过获取的语音参数控制家电设备的运转或者搜索服务。但是单一的语音参数存在误识别,特别是当周围环境噪音大、距离较远时,更加大误识别的概率。同时,目前的语音交互是先需要激活词唤醒设备的强交互模式,操作不便,交互方式不友好。综上,现有的家电设备交互方法和系统存在着误识别、依赖激活词和交互不友好的问题。
发明内容
本发明的目的是提供一种家电设备的多模态交互方法及系统,解决传统单一的语音交互存方式在的误识别、依赖激活词和交互不友好的问题。
本发明解决其技术问题,采用的技术方案是:家电设备的多模态交互方法,包括以下步骤:
S1.获取当前环境下的图像及语音信号;
S2.根据语音信号,检测是否存在语音活动;
S3.如果检测到存在语音活动,根据图像信号,判断是否有人正注视设备且在说话;
S4.如果检测到有人正注视设备且在说话,则启动语音交互功能,并存储当前用户语音特征和图像特征;
S5.在启动语音交互功能情况下,根据语音特征,识别当前说话人的说话内容;
S6.在启动语音交互功能情况下,采用意图识别,判断当前说话人的意图并提供相应的服务。
具体的是,步骤S1中,通过家电设备内置的语音接收器装置,获取当前环境下的语音信号;通过家电设备内置的摄像头装置,获取当前环境下的图像信号。
进一步的是,步骤S2具体包括以下步骤:
S201.提取语音信号传统特征或深度特征;
S202.基于门限、统计模型及机器学习对特征进行判决,检测是否存在语音活动。
具体的是,步骤S3具体包括以下步骤:
S301.根据所述图像信号,用计算机视觉技术计算当前说话人的人脸朝向,判断当前环境中是否有人在正注视设备;
S302.如果有人在正注视设备,根据图像信号,利用计算机视觉技术计算判断注视设备的人是否在说话。
进一步的是,步骤S4中,所述语音特征包括说话人的年龄、性别及身份;所述图像特征包括说话人的人脸、位置、性别、年龄及身份。
具体的是,步骤S5中,通过提取语音特征中的语音参数,识别当前说话人的说话内容。
进一步的是,步骤S6具体包括以下步骤:
S601.采用意图识别,分析说话内容,提取当前说话人的意图;
S602.家电设备内置命令词数据库;
S603.将当前说话人的意图与数据库匹配,确认用户想输入的命令;
S604.提供当前说话人所需的服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910616247.9/2.html,转载请声明来源钻瓜专利网。