[发明专利]一种基于绘本识别的图像数据处理方法及系统有效
申请号: | 201910180116.0 | 申请日: | 2019-03-11 |
公开(公告)号: | CN110033023B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 陆羽皓 | 申请(专利权)人: | 北京光年无限科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/532 |
代理公司: | 北京聿华联合知识产权代理有限公司 11611 | 代理人: | 张文娟;朱绘 |
地址: | 100000 北京市石景山区石景山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 识别 图像 数据处理 方法 系统 | ||
本发明提供一种基于绘本识别的图像数据处理方法,包括:获取拍照指令并采集图像;利用预设的检索匹配优化模型,对拍摄图像进行编码;根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算拍摄图像与每幅待检索图像间的第一相似度并进行排序;从第一排序结果中筛选出满足预设的比例条件的待检索图像,计算相应的第二相似度并进行排序;从第二排序结果中筛选出检索结果并输出相关的多模态信息。本发明不仅保障了检索精度,还有效降低计算和检索时间,缩短用户等待时间,可识别并检索低分辨率图像,降低在线识别带宽需求,从而降低系统成本。
技术领域
本发明涉及人工智能领域,具体地说,涉及一种基于绘本识别的图像数据处理方法及系统。
背景技术
随着人工智能的发展,越来越多的绘本阅读机器人推向市面,通过识别卡片、书籍上的内容,例如识别各种形状交通工具、类人机器人、乐器、动植物等内容后,检索出与识别内容相关的多模态输出数据,同时以语音播报、动作呈现和/或屏幕显示等形式输出相关联的多模态数据,从而提升用户的认知能力。
绘本阅读机器人将印刷品检索技术相结合,使得机器人具有了与检索印刷品图片相关信息的交互能力,加强了机器人在图片检索等领域的应用。
然而,现有的绘本阅读机器人在进行内容识别过程中,常常受到图片质量、拍摄环境条件影响,而采集到不同清晰度质量的图像数据,从而影响图像的多模态输出数据检索的正确率,使得绘本阅读机器人输出的数据常与采集的内容不匹配,大大影响了用户的体验感。
另外,对于现有的印刷品检索算法来说,要求目标图片和数据库中图片的图案具有包括旋转和位移等的几何对应关系,因此,需要对图片上对应点的几何关系进行校验。在以往的方案中,这种几何校验需要提取每张图片的局部特征点,并对两张图片的特征点进行逐一匹配,并检验匹配点之间的几何关系,这些特征点的存储占用大量内存,进一步匹配过程计算量大并占用了大量的内存空间。
因此,需要一种轻量级的针对平面印刷图案扫描件的基于绘本识别的图像数据处理方法及系统,以使绘本阅读机器人能基于各种拍摄环境来输出与扫描件相匹配的多模态数据。
发明内容
为解决上述问题,本发明提供了一种基于绘本识别的图像数据处理方法,其特征在于,包括:步骤一,获取拍照指令并采集图像;步骤二,利用预设的检索匹配优化模型,对所述拍摄图像进行编码,其中,所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的;步骤三,根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序;步骤四,从第一排序结果中筛选出满足预设的比例条件的所述待检索图像,计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序;步骤五,从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果,并输出与所述检索结果相关的多模态信息。
根据本发明的一个实施例,在计算所述第二相似度时,进一步包括:获取所述拍摄图像的池化坐标向量;根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量,计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离,得到相应的权值评价向量;利用预设的非线性单调递减函数,对所述权值评价向量进行滤波处理,得到相应的特征修正向量;将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算,进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算,得到相应的所述第二相似度。
根据本发明的一个实施例,所述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。
根据本发明的一个实施例,在所述步骤二中,利用图像处理技术,检测所述拍摄图像,确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息;根据当前的服务器运行速度及资源剩余量,结合所述环境状态信息,选择相适应的所述卷积神经网络模型,并确定相应的所述检索匹配优化模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京光年无限科技有限公司,未经北京光年无限科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910180116.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序