[发明专利]一种对图片中的字符串进行分割的方法有效
申请号: | 201910576925.3 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110309769B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 张春红;胡铮;邵文良 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图片 中的 字符串 进行 分割 方法 | ||
1.一种对图片中的字符串进行分割的方法,其特征在于,分以下步骤:
步骤一、采集若干字符串图片划分为训练样本和测试样本;
步骤二、将每个训练样本分别进行预处理,得到各训练样本对应的若干子图片;
步骤三、针对每个训练样本,将各个训练样本的每个子图片采用IOBES方式标注为序列;
步骤四、利用进行序列标注的训练样本,训练双向长短期记忆神经网络和条件随机场的模型;
具体步骤如下:
步骤401、采用双向长短期记忆神经网络结构,将当前长短期记忆神经网络单元之前和之后的单元信息进行串联;
步骤402、针对某个训练样本,将该样本中每个子图片的像素点输入串联的长短期记忆神经网络后,输出该子图片标签分别为IOBES的五个概率值;
设子图片输入像素点的集合为X=(x1,x2,...xi,...xn);xi为子图片输入的第i个像素点;前后串联的长短期记忆神经网络的输出标签概率值为:
W为全连接层的五维输出值,用来对应IOBES;为后向长短期记忆神经网络对应单元的值,为前向长短期记忆神经网络对应单元的值;
步骤403、在串联的长短期记忆神经网络后加入条件随机场模型,为每个训练样本分别计算一个分数;
具体为:
针对第j个标注序列的训练样本,共包括m个子图片,标签集合为y=(y1,y2,...,ym);
首先,计算从前一个子图片的标签yl转移到后一个子图片的标签yl+1概率之和
然后,计算所有子图片的标签概率值和为表示第l个子图片标签为yl的概率值;
最后,得到该训练样本的分数;
计算公式如下:
步骤404、设定训练双向长短期记忆神经网络和条件随机场的模型的约束条件;
约束条件为:
将每个训练样本中所有子图片的标签概率值通过softmax,并保证概率和为1且可导:
es(X,y)的幂为当前训练样本中标注好的正确标签序列的分数;为每个子图片从输出的标签中IOBES选择一个,所有子图片的标签构成的序列组合;
步骤405、最大化正确标签序列的对数似然函数,通过反向传播算法,优化模型的各个参数;
步骤五、将测试样本输入训练好的双向长短期记忆神经网络和条件随机场的模型中,得到分数最高的标签序列;
在测试时,通过维特比算法计算出分数最高的标签序列;
步骤六、将分数最高的标签序列作为图像分割的分割线,进行测试样本的分割。
2.如权利要求1所述的一种对图片中的字符串进行分割的方法,其特征在于,步骤二中所述的预处理是指:首先、将图片进行二值化,并放缩至高度为25个像素;然后将相邻的5列像素点划分为一个子图片,每个子图片的维度是5*25=125。
3.如权利要求1所述的一种对图片中的字符串进行分割的方法,其特征在于,步骤三中所述的IOBES标注方式为:若该子图片输入为一个文字区域的开始,则其标注为B,若该子图片输入为一个文字区域内部,则其标注为I,若该子图片输入为文字区域结尾,标注为E,若该子图片输入单独成为一个文字区域,则标注为S,若该子图片输入不属于文字区域,则标注为O。
4.如权利要求1所述的一种对图片中的字符串进行分割的方法,其特征在于,所述的步骤六过程如下:
首先,找到所有被BIE序列包含起来的子图序列,然后找到单个S分类对应的子图序列;
然后,定义人工规则:在多个O标签后接了多个I标签,利用规则修正将第一个I标签转化为B标签;同样的,如果多个I标签后接了多个O标签,将最后的I标签转化为E标签;
通过后处理,将判定为文字区域的子图串联起来,得到检测的文字区域,完成文字检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910576925.3/1.html,转载请声明来源钻瓜专利网。