[发明专利]一种文字检测及识别的方法及系统在审
申请号: | 201810818780.9 | 申请日: | 2018-07-24 |
公开(公告)号: | CN109034155A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 房鹏展;夏宇;吕晨 | 申请(专利权)人: | 百卓网络科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字信息 文字区域检测 文字区域图片 文字检测 文字区域 文字识别 神经网络训练 图片文字检测 模型结合 人力成本 数据集中 自动识别 录入 图片 应用 场景 检测 | ||
1.一种文字检测及识别的方法,其特征在于,包括如下步骤:
步骤一:准备数据集,包括文字图片中的文字区域位置、区域文字信息,数据集可以通过人工标注或者自动生成获得;
步骤二:根据文字区域位置,利用深度神经网络训练文字区域检测模型,并对模型进行评估及优化,对于文字区域检测模型,输入为一张图片Imagei,输出为{Regionik},其中i表示第i个图片,k=1,...,t,t表示第i个图片中有t个文字区域,Regionik表示第i个图片中第k个文字区域;利用深度神经网络训练一个文字区域检测模型,使得F(Imagei)={Regionik}。
步骤三:根据文字区域图片与对应的文字信息,利用深度神经网络训练文字识别模型,并对模型进行评估及优化;对于文字识别模型,输入为步骤二中得到的校正的文字区域图片CImageik,输出为对应的文字信息Stringik;利用深度神经网络训练一个文字区域检测模型,使得G(CImageik)=Stringik;
步骤四:对于待识别的图片,调用F模型,得到t个文字区域矩形,并进行旋转校正,得到t个校正的文字区域图片;
步骤五:对于t个校正的文字区域图片,分别调用G模型,得到t个区域对应的文字信息,将这些信息返回。
2.如权利要求1所述的一种文字检测及识别的方法,其特征在于:所述步骤一中,数据集的采集是在文字区域采用矩形画框,实际存储采用矩形4个点的坐标,所述步骤二中,对于文字区域检测模型,输入为一张图片Imagei,输出{(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)},其中i表示第i个图片,k=1,...,t,t表示第i个图片中有t个文字区域,(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标,利用深度神经网络训练一个文字区域检测模型,使得F(Imagei)={(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)}。
3.如权利要求2所述的一种文字检测及识别的方法,其特征在于:所述步骤二中,为了得到一个可用的文字区域检测模型,需要对模型进行测试,如果精度低于可用阈值Threshold(F),针对检测精度较低的图片类型,补充一些相关的图片到训练数据集中,重新训练,直到模型可用;另外,对每个Regionik进行倾斜矫正得到CImageik,根据4个点的坐标,可以计算矩形的倾斜角度θik,可以进行旋转Rotate(θik)校正到水平形状,Rotate(θik)表示对第i个图片的第k个文字区域旋转角度θik,得到CImageik。
4.如权利要求3所述的一种文字检测及识别的方法,其特征在于:所述步骤三中,为了得到一个可用的文字识别模型,需要对模型进行测试,如果精度低于可用阈值Threshold(G),针对识别精度较低的文字,补充一些相关的文字图片到训练数据集中,重新训练,直到模型可用。
5.一种根据权利要求1-4之一所述方法运行的文字检测及识别的系统,其特征在于:包括数据源模块、模型训练模块、图片文字识别模块:
所述数据源模块,用于训练文字区域检测模型和文字识别模型所需要准备的数据集,主要包括:文字图片、文字区域位置、区域文字信息;
所述模型训练模块,利用深度神经网络训练文字区域检测及识别模型;其中包括四个子模块:文字区域检测模型训练子模块、文字区域检测模型子模块、文字识别模型训练子模块、文字识别模型子模块;所述文字区域检测模型训练子模块,是根据文字区域位置,利用深度神经网络训练文字区域检测模型;所述文字区域检测模型子模块,是对模型进行评估及优化,最终得到可用的文字区域检测模型;所述文字识别模型训练子模块,是根据文字区域图片与对应的文字信息,利用深度神经网络训练文字识别模型;所述文字识别模型子模块,是对模型进行评估及优化,最终得到可用的文字识别模型;
所述图片文字识别模块,提供文字识别的接口,接收待识别的图片,通过调用模型最终返回文字信息;其中包括五个子模块:待识别图片接收子模块、文字区域检测子模块、文字区域校正子模块、文字区域识别子模块、文字信息返回子模块;所述待识别图片接收子模块,用于接收待识别的图片信息;所述文字区域检测子模块,对于待识别的图片,调用文字区域检测模型,识别文字所在区域;所述文字区域校正子模块,根据文字区域的坐标位置计算该区域的倾斜角度,对文字区域进行校正;所述文字区域识别子模块,对于校正后的文字区域图片,调用文字识别模型,识别出对应的文字信息;所述文字信息返回子模块,将最终识别的文字信息返回。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百卓网络科技有限公司,未经百卓网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810818780.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:发票专用章税号的提取和识别方法
- 下一篇:一种基于图像识别的弹点定位方法