[发明专利]一种智能机器人的多模态融合自然交互方法、系统及介质有效

申请号：	202210838251.1	申请日：	2022-07-18
公开（公告）号：	CN114995657B	公开（公告）日：	2022-10-21
发明（设计）人：	李树涛;宋启亚;孙斌	申请（专利权）人：	湖南大学
主分类号：	G06F3/01	分类号：	G06F3/01;G06K9/62;G06N3/00;G06N20/00;G06N3/04;G06N5/04;B25J11/00
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	谭武艺
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能机器人多模态融合自然交互方法系统介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于机器人的多模态融合自然交互方法，其特征在于，包括：

S1，获取目标交互对象的音频数据、视觉数据以及距离数据；

S2，根据从目标交互对象的音频数据、视觉数据以及距离数据中获得的多种模态的交互特征进行多模态融合意图理解，包括说话人识别以确定目标交互对象的用户ID、语言指向识别以确定目标交互对象说话指向本机器人的概率、用户指示动作识别以确定目标交互对象的动作指示目标，和情感化意图识别以确定目标交互对象的情感状态；

S3，基于多模态融合意图理解的结果确定目标交互对象的交互意愿，并执行对目标交互对象执行交互管理，包括用户状态管理、交互状态跟踪以及情感化交互决策；

S4，基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果，并针对交互反馈结果执行交互反馈结果生成并输出，所述交互反馈结果包括语言文本、语音、动作、表情中的部分或全部；

步骤S2中说话人识别所采用的多种模态的交互特征包括：基于目标交互对象的音频数据提取得到的声纹特征F_w，基于目标交互对象的视觉数据提取得到的人脸特征F_i；所述说话人识别包括：

S201，将目标交互对象的声纹特征F_w与已登记用户库的声纹特征集合F_p={F_p^m|m=,1,2,3,...,n}计算声纹相似性，其中F_p^m表示已登记用户库中任意第m个已登记用户的声纹特征，n为已登记用户库中包含的已登记用户数量；将目标交互对象的人脸特征F_i与已登记用户库的人脸特征集合F_s={F_s^m|m=,1,2,3,...,n}计算人脸相似性，其中F_s^m表示已登记用户库中任意第m个已登记用户的人脸特征；其中，计算声纹相似性为利用声纹特征之间的点乘注意力计算声纹相似性，且利用声纹特征之间的点乘注意力计算声纹相似性的函数表达式为：

，

上式中，S_p={S_p^m|m=,1,2,3,...,n}表示目标交互对象的声纹特征F_w与已登记用户库的声纹特征集合F_p={F_p^m|m=,1,2,3,...,n}的声纹相似性集合，softmax表示归一化指数函数，d_k1为矩阵Fw(F_p)^⊤的维度；其中，计算人脸相似性为利用人脸特征之间的点乘注意力计算人脸相似性，且利用人脸特征之间的点乘注意力计算人脸相似性的函数表达式为：

，

上式中，S_c={S_c^m|m=,1,2,3,...,n}表示目标交互对象的人脸特征F_i与已登记用户库的人脸特征集合F_s={F_s^m|m=,1,2,3,...,n}的人脸相似性集合，softmax表示归一化指数函数，d_k2为矩阵Fi(F_s)^⊤的维度；

S202，在声纹相似性集合S_p中选择c个最佳的声纹相似性并进行排序得到最佳声纹相似性集合S_pc={S_p^m|m=,1,2,3,..., c}，在人脸相似性集合S_c中选择c个最佳的人脸相似性并进行排序得到最佳人脸相似性集合S_cc={S_c^m|m=,1,2,3,..., c}；

S203，针对最佳声纹相似性集合S_pc对应的用户集合、最佳人脸相似性集合S_cc对应的用户集合进行交集运算得到共有用户集合，若共有用户集合非空，判定该交互对象为已登记用户，并将共有用户集合按照声纹相似性、人脸相似性的加权求和计算得分，将得分最高的用户作为该交互对象对应的已登记用户，并记录目标交互对象的用户ID；若共有用户集合为空，则将目标交互对象的声纹特征Fw、人脸特征Fi登记到已登记用户库，并记录为该交互对象登记的用户ID。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210838251.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种智能机器人的多模态融合自然交互方法、系统及介质有效

专利文献下载