[发明专利]一种汽车摄像的图像多模态取景方法及系统有效

申请号：	202211076142.7	申请日：	2022-09-05
公开（公告）号：	CN115376114B	公开（公告）日：	2023-06-30
发明（设计）人：	章笑春	申请（专利权）人：	润芯微科技（江苏）有限公司
主分类号：	G06V20/59	分类号：	G06V20/59;G06N3/0464;G06N3/08;G06V10/774;G06V10/82;G06V40/18
代理公司：	南京鑫之航知识产权代理事务所(特殊普通合伙) 32410	代理人：	汪庆朋
地址：	215134 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汽车摄像图像多模态取景方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种汽车摄像的图像多模态取景方法，包括外置于车辆外部的多个外置车辆摄像系统、内置于车辆内部的至少一个内置车辆摄像系统和车机系统，其特征在于，包括以下步骤：至少一个用户通过行为控制车机系统启动多模态取景服务触发拍摄功能，即通过外置车辆摄像系统采集车辆外部的图像数据，将车辆外部的图像数据拼合成车辆外部全景画面的图像数据，具体地，基于用户为中心构造出俯视状态下的圆形全景画布，根据用户视线方向在圆形全景画布上标注出所述用户视线方向中的视线轮廓线，同时得到预设焦距下视线轮廓线的标注信息数据，提取全景画面的图像数据，根据视线轮廓线的标注信息数据，形成对应的图像裁剪框，在全景画面的图像数据上进行裁剪；同时将全景画面的图像数据进行缓存，且缓存至车机系统后待处理；

用户基于内置车辆摄像系统的图像识别或车机系统中的语音识别进行多模态取景，所述多模态取景是在启动多模态取景服务后的预设时间内，根据所述图像识别或语音识别确定用户当前取景行为，并基于对应的所述用户当前取景行为，在缓存的全景画面的图像数据上进行生成对应的结果图像数据；所述多模态取景包括根据眼神模式取景服务、手势模式取景服务以及语音模式取景服务；

其中，所述眼神模式取景服务是通过内置车辆摄像系统确定对应的用户视线方向，具体地基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向，获取所述用户的眼睛的聚焦方位，根据所述眼睛的聚焦方位确定所述视线方向，具体地获取所述眼睛的聚焦方位，将眼部图像输入视线估计模型，得到视线向量，所述视线估计模型为根据样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到，所述轮廓标注信息包括眼部轮廓和瞳孔轮廓；同时生成所述用户视线方向范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户视线方向为中心，分割全景状态下用户的视线方向范围，根据视线方向范围将全景画面的图像数据进行裁剪，生成眼神图像取景的结果图像数据并呈现；

所述手势模式取景服务是通过内置车辆摄像系统确定对应的用户手势指引的方向，同时生成所述用户手势指引范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户手势指引方向为中心，分割全景状态下用户的手势指引方向范围，根据手势指引方向范围将全景画面的图像数据进行裁剪，生成手势图像取景的结果图像数据并呈现；

所述语音模式取景服务是通过车机系统中的语音识别确定对应的用户语音信息，语音信息为语音取景方位的指令信息，根据所述语音取景方位的指令信息生成语音取景方位范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户语音信息指引方向为中心，分割全景状态下用户的语音信息指引方向范围，根据语音信息指引方向范围将全景画面的图像数据进行裁剪，生成语音信息图像取景的结果图像数据并呈现；

所述基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向，具体如下：

获取所述用户头部轮廓方向中的头部朝向，根据所述头部朝向确定用户的视线方向；

或者，获取所述用户的眼睛的聚焦方位，根据所述眼睛的聚焦方位确定所述视线方向；

或者，获取所述用户的头部朝向和眼睛的聚焦方位，根据所述头部朝向和眼睛的聚焦方位确定所述视线方向；

所述视线估计模型通过以下步骤获得：

获取样本集，所述样本集包括样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息以及标注向量，所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓；将所述样本眼部图像输入神经网络模型，输出与所述样本眼部图像对应的热图，以及与所述样本眼部图像对应的视线向量；根据所述轮廓标注信息和所述热图之间的第一损失，以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型，得到所述视线估计模型；

用户通过行为控制车机系统启动图像眼神模式取景服务触发拍摄功能，所述行为包括语音指令、按键指令或手势指令，每个所述行为中均包括拍摄功能选择行为；所述拍摄功能包括拍照、录像或连拍其中的一种，所述拍摄功能根据用户相应行为中所述的拍摄功能选择行为，进行选择；

通过内置车辆摄像系统和车机系统，根据用户的行为判断所对应的用户，具体地车机系统中缓存有对应用户的人脸图像信息，当用户通过语音指令、按键指令或手势指令行为控制车机系统时，通过内置车辆摄像系统获取当前的用户的图像信息，与缓存的用户的人脸图像信息比对，以判断所对应的用户；

还包括基于生成的图像眼神取景的结果图像数据，用户通过控制车机系统将呈现的图像眼神取景的结果图像进行调整，调整包括放大、缩小或移动。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于润芯微科技（江苏）有限公司，未经润芯微科技（江苏）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211076142.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于灌注桩的后压浆装置及施工方法
下一篇：辅助轮辋和轮式行走设备

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汽车摄像的图像多模态取景方法及系统有效

专利文献下载