[发明专利]车载语视融合多模态交互方法及系统、设备、存储介质在审
申请号: | 202111022401.3 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113723528A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 王琪;朱燕青;吴颖谦;袁志俊;杨扬;王恺 | 申请(专利权)人: | 斑马网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32;G06F40/30;G06F3/0481;G06N20/00 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车载 融合 多模态 交互 方法 系统 设备 存储 介质 | ||
1.一种车载语视融合多模态交互方法,其特征在于,包括:
获取与当前车辆相关的图像信息,其中,所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种;
获取与所述图像信息同时间段内的车内驾乘人员的语音信息;
将所述图像信息与所述语音信息进行融合处理,得到推断结果;
基于所述推断结果,确定执行内容。
2.根据权利要求1所述的方法,其特征在于,将所述图像信息与所述语音信息进行融合处理,得到推断结果,包括:
将所述图像信息与所述语音信息通过融合理解模型进行所述融合处理,其中所述融合理解模型根据样本通过机器学习方法训练形成。
3.根据权利要求1所述的方法,其特征在于,将所述图像信息与所述语音信息进行融合处理,得到推断结果,包括:
对于所述图像信息进行视觉特征解析,得到特征数据包,所述特征数据包包括当前时间戳与结构化信息;
将所述特征数据包按照时间顺序进行排序并进行缓存;
对所述语音信息进行解析,得到意图理解以及语音特征;
对所述语音特征与缓存的所述特征数据包进行融合处理,得到依赖信息;
基于所述依赖信息与所述意图理解,得到所述推断结果。
4.根据权利要求3所述的方法,其特征在于,所述特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。
5.根据权利要求4所述的方法,其特征在于,对所述图像信息进行目标识别,得到所述结构化信息,所述结构化信息包括车外的结构化信息和/或车内的结构化信息,其中,
所述车外的结构化信息包括:车外目标及其属性的检测信息、车外道路的道路信息、车外标识的标识信息、车外的参考设施信息中的一种或多种,所述车内的结构化信息包括车内人员信息;
对所述图像信息进行特征提取,得到所述非结构化信息,所述非结构化特征数据包括感兴趣区域框、目标提案框、特征嵌入数据中的一种或多种;
对所述图像信息进行检测处理,得到所述检测信息,所述检测信息包括交通事件、驾乘状态和驾乘行为中的一种或多种;
对所述图像信息进行目标追踪,得到所述目标追踪数据,所述目标追踪数据至少包括环境目标追踪数据与车内目标追踪数据。
6.根据权利要求4所述的方法,其特征在于,所述特征数据包中,同一物理目标的连续图像数据,附带有同样的身份标识。
7.根据权利要求3所述的方法,其特征在于,将所述特征数据包按照时间顺序进行排序并进行缓存,包括:
所述特征数据包以第一目标为单元进行缓存,并设定缓存的所述特征数据包的生命周期,所述第一目标至少包括道路上或车内的人或物;以及,
一段所述图像信息序列中的同一个所述第一目标的若干特征数据更新在同一个缓存单元中。
8.根据权利要求3所述的方法,其特征在于,对所述语音信息进行解析,得到意图理解以及语音特征,包括:
对所述语音信息进行解析,得到包括始时间的字符序列;
基于对所述字符序列的理解,得到所述意图理解及语音特征。
9.根据权利要求7所述的方法,其特征在于,所述意图理解包括所述语音信息的序列始时间以及意图,所述语音特征包括关键语义槽位特征和/或语义嵌入特征。
10.根据权利要求9所述的方法,其特征在于,所述意图包括执行指令或表述当前状态,所述依赖信息包括执行对象、执行方式;
基于所述执行指令,得到所述语音信息中的第二目标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斑马网络技术有限公司,未经斑马网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111022401.3/1.html,转载请声明来源钻瓜专利网。