[发明专利]一种文字检测及识别的方法及系统在审

申请号：	201810818780.9	申请日：	2018-07-24
公开（公告）号：	CN109034155A	公开（公告）日：	2018-12-18
发明（设计）人：	房鹏展;夏宇;吕晨	申请（专利权）人：	百卓网络科技有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06N3/04;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210000 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字信息文字区域检测文字区域图片文字检测文字区域文字识别神经网络训练图片文字检测模型结合人力成本数据集中自动识别录入图片应用场景检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字检测及识别的方法，其特征在于，包括如下步骤：

步骤一：准备数据集，包括文字图片中的文字区域位置、区域文字信息，数据集可以通过人工标注或者自动生成获得；

步骤二：根据文字区域位置，利用深度神经网络训练文字区域检测模型，并对模型进行评估及优化，对于文字区域检测模型，输入为一张图片Image_i，输出为{Region_ik}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，Region_ik表示第i个图片中第k个文字区域；利用深度神经网络训练一个文字区域检测模型，使得F(Image_i)＝{Region_ik}。

步骤三：根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型，并对模型进行评估及优化；对于文字识别模型，输入为步骤二中得到的校正的文字区域图片CImage_ik，输出为对应的文字信息String_ik；利用深度神经网络训练一个文字区域检测模型，使得G(CImage_ik)＝String_ik；

步骤四：对于待识别的图片，调用F模型，得到t个文字区域矩形，并进行旋转校正，得到t个校正的文字区域图片；

步骤五：对于t个校正的文字区域图片，分别调用G模型，得到t个区域对应的文字信息，将这些信息返回。

2.如权利要求1所述的一种文字检测及识别的方法，其特征在于：所述步骤一中，数据集的采集是在文字区域采用矩形画框，实际存储采用矩形4个点的坐标，所述步骤二中，对于文字区域检测模型，输入为一张图片Image_i，输出{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}，其中i表示第i个图片，k＝1,...,t，t表示第i个图片中有t个文字区域，(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)分别表示第i个图片中第k个文字区域矩形的左上角、左下角、右下角、右上角的点的坐标，利用深度神经网络训练一个文字区域检测模型，使得F(Image_i)＝{(x_ik1,y_ik1),(x_ik2,y_ik2),(x_ik3,y_ik3),(x_ik4,y_ik4)}。

3.如权利要求2所述的一种文字检测及识别的方法，其特征在于：所述步骤二中，为了得到一个可用的文字区域检测模型，需要对模型进行测试，如果精度低于可用阈值Threshold(F)，针对检测精度较低的图片类型，补充一些相关的图片到训练数据集中，重新训练，直到模型可用；另外，对每个Region_ik进行倾斜矫正得到CImage_ik，根据4个点的坐标，可以计算矩形的倾斜角度θ_ik，可以进行旋转Rotate(θ_ik)校正到水平形状，Rotate(θ_ik)表示对第i个图片的第k个文字区域旋转角度θ_ik，得到CImage_ik。

4.如权利要求3所述的一种文字检测及识别的方法，其特征在于：所述步骤三中，为了得到一个可用的文字识别模型，需要对模型进行测试，如果精度低于可用阈值Threshold(G)，针对识别精度较低的文字，补充一些相关的文字图片到训练数据集中，重新训练，直到模型可用。

5.一种根据权利要求1-4之一所述方法运行的文字检测及识别的系统，其特征在于：包括数据源模块、模型训练模块、图片文字识别模块：

所述数据源模块，用于训练文字区域检测模型和文字识别模型所需要准备的数据集，主要包括：文字图片、文字区域位置、区域文字信息；

所述模型训练模块，利用深度神经网络训练文字区域检测及识别模型；其中包括四个子模块：文字区域检测模型训练子模块、文字区域检测模型子模块、文字识别模型训练子模块、文字识别模型子模块；所述文字区域检测模型训练子模块，是根据文字区域位置，利用深度神经网络训练文字区域检测模型；所述文字区域检测模型子模块，是对模型进行评估及优化，最终得到可用的文字区域检测模型；所述文字识别模型训练子模块，是根据文字区域图片与对应的文字信息，利用深度神经网络训练文字识别模型；所述文字识别模型子模块，是对模型进行评估及优化，最终得到可用的文字识别模型；

所述图片文字识别模块，提供文字识别的接口，接收待识别的图片，通过调用模型最终返回文字信息；其中包括五个子模块：待识别图片接收子模块、文字区域检测子模块、文字区域校正子模块、文字区域识别子模块、文字信息返回子模块；所述待识别图片接收子模块，用于接收待识别的图片信息；所述文字区域检测子模块，对于待识别的图片，调用文字区域检测模型，识别文字所在区域；所述文字区域校正子模块，根据文字区域的坐标位置计算该区域的倾斜角度，对文字区域进行校正；所述文字区域识别子模块，对于校正后的文字区域图片，调用文字识别模型，识别出对应的文字信息；所述文字信息返回子模块，将最终识别的文字信息返回。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百卓网络科技有限公司，未经百卓网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810818780.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文字检测及识别的方法及系统在审

专利文献下载