[发明专利]一种图像中文本区域的检测方法及装置有效
申请号: | 201811605215.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109685055B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 杨光磊;程俊涛;王洪伟;刘天悦 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;项京 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 文本 区域 检测 方法 装置 | ||
1.一种图像中文本区域的检测方法,其特征在于,所述方法包括:
根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;其中,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层;
将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别;
其中,所述根据所述待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别,包括:
将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
2.根据权利要求1所述的方法,其特征在于,所述将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别之后,所述方法还包括:
根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
3.一种图像中文本区域的检测装置,其特征在于,所述装置包括:
检测模块,用于根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;其中,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层;
合并模块,用于将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别;
其中,所述检测模块,包括:
第一提取单元,用于将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
第二提取单元,用于将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
分类单元,用于将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
回归单元,用于将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
确定单元,用于根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
识别模块,用于根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
5.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-2任一所述的方法步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-2任一所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811605215.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序