[发明专利]一种基于快速多图融合学习的立体视觉对象识别系统有效
申请号: | 201910071913.5 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109829413B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 高跃;林浩杰;张子昭 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京律谱知识产权代理事务所(普通合伙) 11457 | 代理人: | 黄云铎 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 快速 融合 学习 立体 视觉 对象 识别 系统 | ||
本申请公开了一种基于快速多图融合学习的立体视觉对象识别系统,该系统包括:构建模块,计算模块以及生成模块;构建模块用于根据数据库中的图像数据,分别构建数据库的至少两个数据模态的图和图矩阵;计算模块用于根据图矩阵,计算数据库对应数据模态的概率转移矩阵,计算模块还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵,计算数据库对应数据模态的第一标签矩阵;生成模块用于根据至少两个数据模态的第一标签矩阵,对数据库中的未标记图像数据进行标记,生成并发送立体视觉对象识别结果。通过本申请中的技术方案,实现了不同模态数据的融合,提高不同模态数据中信息的利用率,优化了标签预测的可靠性和准确性。
技术领域
本申请涉及机器学习的技术领域,具体而言,涉及一种基于快速多图融合学习的立体视觉对象识别系统。
背景技术
立体视觉对象的视图可以简洁、直观地对立体视觉对象进行描述,越来越多基于图的学习算法被广泛应用于机器学习的技术领域中,即通过视图数据库中已有标记的视图数据的标签信息,学习出视图数据库中未有标记的视图数据的标签信息,即预测出未标记数据的标签。同时,随着多媒体技术和数据收集技术的发展,机器学习等相关领域中出现了越来越多的多模态数据,如点云模态、视图模态和网格模态,用不同的方法或角度对某个立体视觉对象进行数据收集,因此,需要对不同模态的数据进行融合,实现各模态数据之间的信息互补。
而现有技术中,进行基于图的机械学习时,一方面是直接将多个模态的数据特征拼接为一个特征,再根据拼接的特征构建一个图,进行标签预测,这种方法由于不同模态数据的尺度不同,在进行特征拼接过程中,存在引入更多噪声的可能性,不利于提高标签预测的可靠性。另一方面是分别对不同模态的数据构建不同的图,并在不同的图上单独进行学习,再将学习的结果进行加权求和,得到最终的标签预测结果,这种方法在进行不同图的学习过程中,并没有融合其他模态数据中包含的信息,造成了数据信息的。
发明内容
本申请的目的在于:实现了不同模态数据的融合,提高不同模态数据中信息的利用率,优化了标签预测的可靠性和准确性。
本申请的技术方案是:提供了一种基于快速多图融合学习的立体视觉对象识别系统,该系统包括:构建模块,计算模块以及生成模块;构建模块用于根据数据库中的图像数据,分别构建数据库的至少两个数据模态的图和图矩阵;计算模块用于根据图矩阵,计算数据库对应数据模态的概率转移矩阵,计算模块还用于根据一个数据模态的图和另一个数据模态的概率转移矩阵,计算数据库对应数据模态的第一标签矩阵;生成模块用于根据至少两个数据模态的第一标签矩阵,对数据库中的未标记图像数据进行标记,生成并发送立体视觉对象识别结果。
上述任一项技术方案中,进一步地,构建模块具体包括:获取单元,提取单元,以及构建单元;获取单元用于获取数据库中立体视觉对象的图像数据,其中,图像数据包括已标记图像数据和未标记图像数据,已标记图像数据中包括标签;提取单元用于提取图像数据至少两种类型的特征模态数据;构建单元用于根据特征模态数据,构建数据库的图,并生成对应的图矩阵,其中,图的任一个节点为立体视觉对象,任意两个节点之间连接有边,边的取值为两个节点之间相似度的权重值。
上述任一项技术方案中,进一步地,构建单元计算两个节点之间权重值的计算公式为:
式中,W(i,j)为节点i和节点j之间的权重值,vi为节点i的特征模态数据,vj为节点j的特征模态数据,d(·)2为欧几里德距离函数,μ为第一超常数,σ为第二超常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910071913.5/2.html,转载请声明来源钻瓜专利网。