[发明专利]文本检测模型训练方法、文本预测框方法及装置在审
申请号: | 202110714943.0 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113378832A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 马小明 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市通商律师事务所 11951 | 代理人: | 巩靖 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 模型 训练 方法 预测 装置 | ||
本公开提供了一种文本检测模型训练方法、文本预测框检测方法及装置,涉及图像处理领域,尤其涉及人工智能、计算机视觉技术领域。具体实现方案为:在训练文本检测模型时,基于基础文本检测模型的注意力机制网络,对样本图片中的目标文本区域进行检测,提取图像特征,并不对样本图片中的所有文本区域进行检测,从而在基于训练好的模型进行文本检测时,避免对非目标文本检测区域进行识别,避免产生大量的噪音信息。
技术领域
本公开涉及图像处理技术领域,尤其涉及人工智能、计算机视觉技术领域。
背景技术
“招牌文字识别技术”主要是从商家招牌中检测到文字区域,并对文字区域识别出可解码的汉字和英文格式。识别的结果对PO I新增生产,和自动化招牌关联具有重要意义。由于招牌文字识别技术是整个生产的重要环节,如何准确的识别招牌中的文字成为了一个问题。
发明内容
本公开提供了一种文本检测模型训练方法、文本预测框检测方法及装置。
根据本公开的第一方面,提供了一种文本检测模型训练方法,包括:
确定训练样本集合,训练样本集合包含多个样本图片及各样本图片的目标文本区域标签,其中,多个样本图片中至少部分样本图片包含目标文本区域和非目标文本区域;
通过初始文本检测模型的注意力机制网络提取各样本图片的图像特征;
基于提取的各样本图片的图像特征,通过初始文本检测模型的候选框预测网络确定各个样本图片的候选框;
基于提取的各样本图片的候选框以及各样本图片的目标文本区域标签确定预定的损失函数的损失值;
基于确定的预定的损失函数的损失值调整初始文本检测模型的模型参数,直至收敛,确定目标文本检测模型的模型参数。
根据本公开的第二方面,提供了一种文本检测方法,包括:
确定待检测目标图片,待检测目标图片包含目标文本区域和非目标文本区域;
通过预训练的目标文本检测模型的注意力机制网络提取待检测目标图片的图像特征;
基于提取的待检测目标图片的图像特征,通过目标文本检测模型的候选框检测网络确定待检测目标图片中的文本的预测框。
根据本公开的第三方面,提供了一种文本检测模型训练的装置,包括:
第一确定模块,用于确定训练样本集合,训练样本集合包含多个样本图片及各样本图片的目标文本区域标签,其中,多个样本图片中至少部分样本图片包含目标文本区域和非目标文本区域;
提取模块,用于通过初始文本检测模型的注意力机制网络提取各样本图片的图像特征;
第二确定模块,用于基于提取的各样本图片的图像特征,通过初始文本检测模型的候选框预测网络确定各个样本图片的候选框;
第三确定模块,用于基于提取的各样本图片的候选框以及各样本图片的目标文本区域标签确定预定的损失函数的损失值;
调整模块,用于基于确定的预定的损失函数的损失值调整初始文本检测模型的模型参数,直至收敛,确定目标文本检测模型的模型参数。
根据本公开的第四方面,提供了一种文本检测的装置,包括
第四确定模块,用于确定待检测目标图片,待检测目标图片包含目标文本区域和非目标文本区域;
第二提取模块,用于通过第一方面的目标文本检测模型的注意力机制网络提取待检测目标图片的图像特征;
第五确定模块,用于基于提取的待检测目标图片的图像特征,通过目标文本检测模型的候选框检测网络确定待检测目标图片中的文本的预测框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110714943.0/2.html,转载请声明来源钻瓜专利网。