首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]车载语视融合多模态交互方法及系统、设备、存储介质在审

申请号：	202111022401.3	申请日：	2021-09-01
公开（公告）号：	CN113723528A	公开（公告）日：	2021-11-30
发明（设计）人：	王琪;朱燕青;吴颖谦;袁志俊;杨扬;王恺	申请（专利权）人：	斑马网络技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/32;G06F40/30;G06F3/0481;G06N20/00
代理公司：	上海华诚知识产权代理有限公司 31300	代理人：	徐颖聪
地址：	200030 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	车载融合多模态交互方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种车载语视融合多模态交互方法，其特征在于，包括：

获取与当前车辆相关的图像信息，其中，所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种；

获取与所述图像信息同时间段内的车内驾乘人员的语音信息；

将所述图像信息与所述语音信息进行融合处理，得到推断结果；

基于所述推断结果，确定执行内容。

2.根据权利要求1所述的方法，其特征在于，将所述图像信息与所述语音信息进行融合处理，得到推断结果，包括：

将所述图像信息与所述语音信息通过融合理解模型进行所述融合处理，其中所述融合理解模型根据样本通过机器学习方法训练形成。

3.根据权利要求1所述的方法，其特征在于，将所述图像信息与所述语音信息进行融合处理，得到推断结果，包括：

对于所述图像信息进行视觉特征解析，得到特征数据包，所述特征数据包包括当前时间戳与结构化信息；

将所述特征数据包按照时间顺序进行排序并进行缓存；

对所述语音信息进行解析，得到意图理解以及语音特征；

对所述语音特征与缓存的所述特征数据包进行融合处理，得到依赖信息；

基于所述依赖信息与所述意图理解，得到所述推断结果。

4.根据权利要求3所述的方法，其特征在于，所述特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。

5.根据权利要求4所述的方法，其特征在于，对所述图像信息进行目标识别，得到所述结构化信息，所述结构化信息包括车外的结构化信息和/或车内的结构化信息，其中，

所述车外的结构化信息包括：车外目标及其属性的检测信息、车外道路的道路信息、车外标识的标识信息、车外的参考设施信息中的一种或多种，所述车内的结构化信息包括车内人员信息；

对所述图像信息进行特征提取，得到所述非结构化信息，所述非结构化特征数据包括感兴趣区域框、目标提案框、特征嵌入数据中的一种或多种；

对所述图像信息进行检测处理，得到所述检测信息，所述检测信息包括交通事件、驾乘状态和驾乘行为中的一种或多种；

对所述图像信息进行目标追踪，得到所述目标追踪数据，所述目标追踪数据至少包括环境目标追踪数据与车内目标追踪数据。

6.根据权利要求4所述的方法，其特征在于，所述特征数据包中，同一物理目标的连续图像数据，附带有同样的身份标识。

7.根据权利要求3所述的方法，其特征在于，将所述特征数据包按照时间顺序进行排序并进行缓存，包括：

所述特征数据包以第一目标为单元进行缓存，并设定缓存的所述特征数据包的生命周期，所述第一目标至少包括道路上或车内的人或物；以及，

一段所述图像信息序列中的同一个所述第一目标的若干特征数据更新在同一个缓存单元中。

8.根据权利要求3所述的方法，其特征在于，对所述语音信息进行解析，得到意图理解以及语音特征，包括：

对所述语音信息进行解析，得到包括始时间的字符序列；

基于对所述字符序列的理解，得到所述意图理解及语音特征。

9.根据权利要求7所述的方法，其特征在于，所述意图理解包括所述语音信息的序列始时间以及意图，所述语音特征包括关键语义槽位特征和/或语义嵌入特征。

10.根据权利要求9所述的方法，其特征在于，所述意图包括执行指令或表述当前状态，所述依赖信息包括执行对象、执行方式；

基于所述执行指令，得到所述语音信息中的第二目标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于斑马网络技术有限公司，未经斑马网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111022401.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种一体柜空调、机柜和控制方法
下一篇：一种应用于变时延条件下的六足机器人遥操作控制方法

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top