[发明专利]基于异构多模型的废旧电子产品品牌识别方法在审
申请号: | 202111673248.0 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114708593A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 汤健;王子轩;张晓晓;荆中岭 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06K9/62;G06N3/04;G06N3/08;G06V30/10;G06V10/764 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 异构多 模型 废旧 电子产品 品牌 识别 方法 | ||
1.基于异构多模型的废旧电子产品识别方法,其特征在于,包括:图像预处理模块、多元特征提取模块、异构多模型识别模块共3个部分;
出现变量含义如表1所示;
表1变量含义表
图像预处理模块的输入为数据增强预处理输出为Ximg,使用CRAFT字符级目标检测算法的字符预处理输出为Xdigit;
多元特征提取模块使用基于ImageNet预训练的VGG19网络获取字符特征与整体背部图像像素特征在高维空间的表示,该模块的输入为Ximg和Xdigit,输出分别为和
异构多模型识别模块包括含OCR字符识别子模块、深度森林电子产品识别子模块和softmax非线性输出层子模块共3部分,其中:OCR子模块输入为输出为深度森林子模块输入为输出为softmax非线性输出层子模块将分类子模块输出结果进行映射,获得得分最高的标签即为最终输出
图像预处理模块包括数据增强预处理和字符增强预处理;
字符增强预处理选取电子产品背部图像中的字符特征作为分类依据之一,采用CRAFT字符级图像定位算法确定电子产品字符位置并分割,将字符特征与整体图片线性拼接,作为后续模型输入;
对于人工数据集,数据集包含图中单个字符的高斯热度图,CRAFT算法对本部分进行有监督训练;对于电子产品背部图像数据集,首先标记电子产品图像中的文本框区域,将其经过透视变换拉伸到比较正的文本框;接着利用分水岭算法得到单个字符的位置框,生成对应的高斯热度图,变换后重新贴回原图对应的标签图的相应的位置;计算分水岭算法分割结果评分公式如下所示:
其中,l(w)表示电子产品图像文本框长度,lc(w)为分水岭算法分割字符串长度结果;
分水岭算法分割得到字符串长度后根据公式(1)得到算法评价,若评价与真实字符长度一致则置信度Sc(p)为1,评分越低说明分割结果可信度越差;
工业设备采集的电子产品图像表示为Ximg,其尺寸为400*300,经过图像预处理后其字符图像表示为其中表示字符图像中第i个字符,单个字符尺寸为50*50,整体字符图像大小即为50*(50*m);m字符图像输出维度与五字符图像输出维度一致;
该模块采用基于ImageNet预训练的VGG19模型作为基模型,首先,将VGG19模型中卷积层和池化层参数固化;接着,针对不同图像特征构建不同大小全连接层;最后,将不同图像的模型输出线性组合,作为后续分类模型的输入特征;多元特征提取后特征维度由全连接层维度决定;针对不同大小的手机图像Ximg和字符图像Xdigit特征提取过程如公式(2)所示:
其中,fVGG(·)表示VGG19模型输出过程;
构建“OCR字符识别模型”和“深度森林识别模型”,子模型结构如下所示;
a)OCR字符识别模型子模块
在OCR电子产品背部字符识别流程中,仅使用字符特征作为输入;首先通过双向LSTM提取含有完整上下文信息的字符序列特征;接着,通过CTC网络解决输入特征与输出序列无法对其的问题;最后,通过莱文斯坦距离确定OCR输出字符串与已知标签之间距离,最终获得电子产品品牌分类结果
OCR字符识别模型根据图像预处理部分所得字符特征构建k(其中k>m)个LSTM基本单元;双向LSTM网络包含两个子网络结构,公式(3)、(4)分别表示前项和后项传递;
其中,k为LSTM基本单元超参数,表示前向LSTM在时刻i的输出结果,表示后向LSTM在时刻i的输出结果,表示第i个输入xi,第i时刻的双向LSTM输出为:
接着,CTC网络对双向LSTM网络输出[h1,h2,...,hx]中重复识别的字符去重,使其变为[y1,y2,...,yn];由于双向LSTM基本单元多于手机字符数量n,导致字符重复划分,例如“honor”会被分割为“hoonorr”;“hoonorr”多个子串可映射为正确结果“honor”,如公式(6)所示
CTC网络通过给定输入X最大化后验概率PY|X获得最终结果Y,其中PY|X如公式(7)所示:
其中,π∈B(Y)表示所有可整合为Y的子串集合;
b)深度森林识别模型子模块
在深度森林废旧电子产品图像识别流程中,将上文所述字符特征和图像特征线性组合得到深度森林输入特征XDF,该过程如公式(8)所示:
首先,使用XDF构建不同随机森林,获得不同随机森林输出接着将随机森林输出与XDF线性组合,作为输入传入下一层模型构建不同随机森林,通过当前模型的分类精度决定是否继续构建下一层网络模型;最后,当模型精度不再提高时结束模型增长,将最后多个随机森林分类结果加权后获得最终分类结果
c)多模型输出加权模块子模块
所述异构多模型识别模块中OCR字符识别模型输出为连续字符串,经过基于距离度量的映射后输出为某一电子产品品牌,而深度森林识别模型输出为所有电子产品品牌的概率;为解决异构模型输出形式不同或输出结果不一致的情况,在分类模型最后加入多模型输出加权模块;
softmax函数又称归一化指数函数,是当前深度学习研究中广泛使用在深度网络有监督学习部分的分类器;Softmax函数如公式(9)所示:
其中,n+1表示异构多模型输出向量维度,e表示自然对数;分类模型中,设废旧电子产品标签共n个,OCR字符识别结果深度森林识别结果线性拼接后获得n+1维结果向量作为softmax函数输入,最终获得对应权重,权重最高的标签作为最终废旧电子产品分类结果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111673248.0/1.html,转载请声明来源钻瓜专利网。