[发明专利]文字识别方法及装置、存储介质、计算机设备在审
申请号: | 202011576748.8 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112613502A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 李响 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/34;G06K9/46;G06K9/62 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 装置 存储 介质 计算机 设备 | ||
本发明公开了一种文字识别方法及装置、存储介质、计算机设备,涉及文字识别技术领域,主要目的在于能够无需标注数据即可实现文字识别,提高文字的识别效率,同时利用区块链网络节点存储识别结果,提高识别结果的存储安全性。包括:获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据;输出所述文本数据。本发明适用于文字的识别。
技术领域
本发明涉及一种文字识别技术领域,特别是涉及一种文字识别方法及装置、存储介质、计算机设备。
背景技术
随着计算机技术的应用越来越广泛,文字识别也逐渐应用于不同的领域。文字识别是光学字符识别(Optical Character Recognition,OCR)中的关键步骤,在金融领域中的应用包括银行卡识别、身份证识别、票据识别等。近年来,随着东南亚国家金融数字化转型,小语种如泰语的文字识别需求愈发旺盛,针对泰语等小语种的文字识别技术也应运而生。
目前,传统的文字识别方法通常是基于深度学习模型,用CTC损失函数衡量预测结果和真实标注的误差。然而,这种方式需要有大量的标注数据,而小语种文字识别面临很大的挑战:现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大。
发明内容
有鉴于此,本发明提供一种文字识别方法及装置、存储介质、计算机设备,主要目的在于解决现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大的技术问题。
依据本发明一个方面,提供了一种文字识别方法,包括:
获取文字图像;
对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;
输出所述文本数据。
进一步地,所述对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量,包括:
对所述文字图像进行文字区域读取;
根据所述文字区域抽取底层颜色特征和底层纹理特征;
对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
抽取所述文字区域的标签层全局特征;
将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
进一步地,所述根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征,包括:
在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;
将所述文字区域转换为灰度图像;
在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;
将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。
进一步地,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:
利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011576748.8/2.html,转载请声明来源钻瓜专利网。