[发明专利]用于文字识别的数据处理方法及装置有效
申请号: | 201811272127.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109508757B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 鞠海玲;张默 | 申请(专利权)人: | 北京陌上花科技有限公司 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/62 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文字 识别 数据处理 方法 装置 | ||
1.一种用于文字识别的数据处理方法,其特征在于,包括:
依照获取的训练数据构建待识别字符的字符频次表;
根据所述字符频次表确定所述训练数据中图像的字频指标;
判断所述字频指标是否大于预设指标;
将判断结果为大于的图像列入冗余图像列表;
删除所述冗余图像列表中的图像;
判断删除后的图像数目是否小于预设数目阈值;
如果是,则将删除后得到的训练数据输入深度学习网络模型;
如果不是,则根据配置的多轮循环模式对所述预设指标执行调低操作;
判断删除后的训练数据中图像的字频指标是否大于调低后的指标;
将判断结果为大于的图像列入所述冗余图像列表;
删除所述冗余图像列表中的图像。
2.根据权利要求1所述的数据处理方法,其特征在于,依照获取的训练数据构建待识别字符的字符频次表包括:
获取包含一个文本序列和文本序列标注的多个图像;
统计多个所述图像中的待识别字符的出现频次;
将统计结果存储为所述字符频次表。
3.根据权利要求1所述的数据处理方法,其特征在于,根据所述字符频次表确定所述训练数据中图像的字频指标包括:
从所述训练数据中调取第一图像的第一文字序列标注:{X1、X2、…、Xn};
根据所述第一文字序列标注查找所述字符频次表,得到第一查找结果:{F(X1)、F(X2)、…、F(Xn)};
根据第一查找结果确定第一字频指标:min({F(X1),F(X2),…,F(Xn)})。
4.根据权利要求1所述的数据处理方法,其特征在于,
判断所述字频指标是否大于预设指标包括:
判断第一图像的第一字频指标是否大于预设频次阈值;
将判断结果为大于的图像列入冗余图像列表包括:
如果是,则将所述第一图像列入冗余图像列表。
5.根据权利要求4所述的数据处理方法,其特征在于,将所述第一图像列入冗余图像列表还包括:
对所述字符频次表中与所述第一图像中的字符对应的条目依次执行更新操作;
根据更新后的字符频次表确定所述训练数据中第二图像的第二字频指标;
判断所述第二字频指标是否大于预设指标;
如果是,则将所述第二图像列入冗余图像列表。
6.根据权利要求1所述的数据处理方法,其特征在于,删除所述冗余图像列表中的图像之后还包括:
判断删除后的图像数目是否小于预设数目阈值;
如果是,则将删除后得到的训练数据输入深度学习网络模型;
如果不是,则根据配置的单轮循环模式将删除后得到的训练数据输入深度学习网络模型。
7.一种用于文字识别的数据处理装置,其特征在于,包括:
构建单元,用于依照获取的训练数据构建待识别字符的字符频次表;
确定单元,用于根据所述字符频次表确定所述训练数据中图像的字频指标;
判断单元,用于判断所述字频指标是否大于预设指标;
列表单元,用于将判断结果为大于的图像列入冗余图像列表;
删除单元,用于删除所述冗余图像列表中的图像;
还包括:判断删除后的图像数目是否小于预设数目阈值;
如果是,则将删除后得到的训练数据输入深度学习网络模型;
如果不是,则根据配置的多轮循环模式对所述预设指标执行调低操作;
判断删除后的训练数据中图像的字频指标是否大于调低后的指标;
将判断结果为大于的图像列入所述冗余图像列表;
删除所述冗余图像列表中的图像。
8.根据权利要求7所 述的数据处理装置,其特征在于,所述构建单元包括:
获取模块,用于获取包含一个文本序列和文本序列标注的多个图像;
统计模块,用于统计多个所述图像中的待识别字符的出现频次;
存储模块,用于将统计结果存储为所述字符频次表。
9.根据权利要求7所 述的数据处理装置,其特征在于,确定单元包括:
调取模块,用于从所述训练数据中调取第一图像的第一文字序列标注:{X1、X2、…、Xn};
查找模块,用于根据所述第一文字序列标注查找所述字符频次表,得到第一查找结果:{F(X1)、F(X2)、…、F(Xn)};
确定模块,用于根据第一查找结果确定第一字频指标:min({F(X1),F(X2),…,F(Xn)})。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京陌上花科技有限公司,未经北京陌上花科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811272127.3/1.html,转载请声明来源钻瓜专利网。