[发明专利]一种文字检测方法及装置在审
申请号: | 202010296274.5 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111523539A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 刘曦 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 检测 方法 装置 | ||
本说明书摘要公开了一种文字检测方法及装置。本说明书摘要将待检测图像输入到卷积神经网络,得到卷积神经网络的各卷积层依次输出的各特征。根据各特征中的底层特征,确定注意力特征。根据注意力特征,分别对各特征中的各上层特征进行加权,得到加权后的各上层特征。针对加权后的各上层特征,根据加权后的该上层特征,对待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果。根据加权后的各上层特征分别对应的初始检测结果,确定待检测图像的最终检测结果。本说明书摘要通过注意力特征增强各上层特征中有效信息的表征能力,更容易将图像中文字的检测结果确定出来,使得文字检测的准确性较高。
技术领域
本说明书涉及图像处理技术领域,尤其涉及一种文字检测方法及装置。
背景技术
人们在生产和生活中,需要处理大量的文字、报表等资料。为了提高处理这些资料的效率,人们开始研究文字识别技术。文字识别技术是一种自动识别字符的技术,能够从图像中识别出文字信息。
文字检测作为文字识别最重要的一步,一直以来都是研究的热点。文字检测的目的是为了确定图像中文字所在的位置,文字所在的位置一般用文字框来表示,因此,文字检测的结果就是确定出的文字框。文字检测之后,再对文字框中文字部分的具体内容进行识别。
如何对图像进行比较准确的文字检测,是一个亟待解决的问题。
发明内容
本说明书实施例提供一种文字检测方法及装置,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种文字检测方法,包括:
将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
可选的,根据所述底层特征,确定注意力特征,具体包括:将所述底层特征输入到预先训练的注意力模型,得到所述注意力模型输出的注意力特征。
可选的,根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征,具体包括:针对所述各上层特征,采用所述注意力特征与该上层特征进行逐位点乘,得到加权后的该上层特征。
可选的,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果,具体包括:将加权后的该上层特征输入到预先训练的预测模型,以使所述预测模型对所述待检测图像进行检测,得到所述预测模型输出的用于框选文字的目标框,作为加权后的该上层特征对应的初始检测结果。
可选的,根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果,具体包括:根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制NMS方法,确定置信度最大的目标框;根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果。
可选的,根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果,具体包括:根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010296274.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:五谷杂粮粉面及其米粉做法
- 下一篇:基于知识图谱的实体查询方法和装置