[发明专利]一种文字检测及识别的方法及系统在审

专利信息
申请号: 201810818780.9 申请日: 2018-07-24
公开(公告)号: CN109034155A 公开(公告)日: 2018-12-18
发明(设计)人: 房鹏展;夏宇;吕晨 申请(专利权)人: 百卓网络科技有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06N3/04;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210000 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字信息 文字区域检测 文字区域图片 文字检测 文字区域 文字识别 神经网络训练 图片文字检测 模型结合 人力成本 数据集中 自动识别 录入 图片 应用 场景 检测
【权利要求书】:

1.一种文字检测及识别的方法,其特征在于,包括如下步骤:

步骤一:准备数据集,包括文字图片中的文字区域位置、区域文字信息,数据集可以通过人工标注或者自动生成获得;

步骤二:根据文字区域位置,利用深度神经网络训练文字区域检测模型,并对模型进行评估及优化,对于文字区域检测模型,输入为一张图片Imagei,输出为{Regionik},其中i表示第i个图片,k=1,...,t,t表示第i个图片中有t个文字区域,Regionik表示第i个图片中第k个文字区域;利用深度神经网络训练一个文字区域检测模型,使得F(Imagei)={Regionik}。

步骤三:根据文字区域图片与对应的文字信息,利用深度神经网络训练文字识别模型,并对模型进行评估及优化;对于文字识别模型,输入为步骤二中得到的校正的文字区域图片CImageik,输出为对应的文字信息Stringik;利用深度神经网络训练一个文字区域检测模型,使得G(CImageik)=Stringik

步骤四:对于待识别的图片,调用F模型,得到t个文字区域矩形,并进行旋转校正,得到t个校正的文字区域图片;

步骤五:对于t个校正的文字区域图片,分别调用G模型,得到t个区域对应的文字信息,将这些信息返回。

2.如权利要求1所述的一种文字检测及识别的方法,其特征在于:所述步骤一中,数据集的采集是在文字区域采用矩形画框,实际存储采用矩形4个点的坐标,所述步骤二中,对于文字区域检测模型,输入为一张图片Imagei,输出{(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)},其中i表示第i个图片,k=1,...,t,t表示第i个图片中有t个文字区域,(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标,利用深度神经网络训练一个文字区域检测模型,使得F(Imagei)={(xik1,yik1),(xik2,yik2),(xik3,yik3),(xik4,yik4)}。

3.如权利要求2所述的一种文字检测及识别的方法,其特征在于:所述步骤二中,为了得到一个可用的文字区域检测模型,需要对模型进行测试,如果精度低于可用阈值Threshold(F),针对检测精度较低的图片类型,补充一些相关的图片到训练数据集中,重新训练,直到模型可用;另外,对每个Regionik进行倾斜矫正得到CImageik,根据4个点的坐标,可以计算矩形的倾斜角度θik,可以进行旋转Rotate(θik)校正到水平形状,Rotate(θik)表示对第i个图片的第k个文字区域旋转角度θik,得到CImageik

4.如权利要求3所述的一种文字检测及识别的方法,其特征在于:所述步骤三中,为了得到一个可用的文字识别模型,需要对模型进行测试,如果精度低于可用阈值Threshold(G),针对识别精度较低的文字,补充一些相关的文字图片到训练数据集中,重新训练,直到模型可用。

5.一种根据权利要求1-4之一所述方法运行的文字检测及识别的系统,其特征在于:包括数据源模块、模型训练模块、图片文字识别模块:

所述数据源模块,用于训练文字区域检测模型和文字识别模型所需要准备的数据集,主要包括:文字图片、文字区域位置、区域文字信息;

所述模型训练模块,利用深度神经网络训练文字区域检测及识别模型;其中包括四个子模块:文字区域检测模型训练子模块、文字区域检测模型子模块、文字识别模型训练子模块、文字识别模型子模块;所述文字区域检测模型训练子模块,是根据文字区域位置,利用深度神经网络训练文字区域检测模型;所述文字区域检测模型子模块,是对模型进行评估及优化,最终得到可用的文字区域检测模型;所述文字识别模型训练子模块,是根据文字区域图片与对应的文字信息,利用深度神经网络训练文字识别模型;所述文字识别模型子模块,是对模型进行评估及优化,最终得到可用的文字识别模型;

所述图片文字识别模块,提供文字识别的接口,接收待识别的图片,通过调用模型最终返回文字信息;其中包括五个子模块:待识别图片接收子模块、文字区域检测子模块、文字区域校正子模块、文字区域识别子模块、文字信息返回子模块;所述待识别图片接收子模块,用于接收待识别的图片信息;所述文字区域检测子模块,对于待识别的图片,调用文字区域检测模型,识别文字所在区域;所述文字区域校正子模块,根据文字区域的坐标位置计算该区域的倾斜角度,对文字区域进行校正;所述文字区域识别子模块,对于校正后的文字区域图片,调用文字识别模型,识别出对应的文字信息;所述文字信息返回子模块,将最终识别的文字信息返回。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百卓网络科技有限公司,未经百卓网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810818780.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top