[发明专利]一种图像中文本区域的检测方法及装置有效
申请号: | 201811605215.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109685055B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 杨光磊;程俊涛;王洪伟;刘天悦 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;项京 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 文本 区域 检测 方法 装置 | ||
本申请实施例提供了一种图像中文本区域的检测方法及装置,涉及图像检测技术领域。该方法包括:根据待检测图像和预先训练的文字检测模型,检测待检测图像中的文字区域及文字区域包含的文字的语言类别,然后,将语言类别相同且相邻的文字区域合并,得到目标文本区域图像和目标文本区域图像包含的文字的目标语言类别。采用本申请可以得到仅包含一种语言文字的文本区域图像。
技术领域
本申请涉及图像检测技术领域,特别是涉及一种图像中文本区域的检测方法及装置。
背景技术
图像中通常包含丰富的文本信息,当用户想要将图片中的文本信息转换成可编辑的文本时,可以应用文本识别技术,利用电子设备识别图像中的文本,进而根据识别结果将该图像中的文字转换为可编辑的文本。文本识别技术主要包含两部分内容,第一是检测出图像中的文本区域,第二是识别文本区域中的文本内容。
现有技术中,图像中文本区域的检测方法为:将包含文本的待检测图像输入文字检测模型,确定待检测图像中的文字区域和非文字区域,然后将相邻的文字区域进行合并,得到待检测图像中的文本区域。
然而,待检测图像中可能包含多种语言类别的文字,现有技术中并未根据文字区域包含的文字的语言类别,对文字区域加以区分,会导致检测到的文本区域包含多种语言类别的文字,在对文本区域包含的文本内容进行识别时,因文本区域包含多种语言类别的文字,会导致识别的准确度较低。
申请内容
本申请实施例的目的在于提供一种图像中文本区域的检测方法及装置,可以得到仅包含一种语言文字的文本区域图像。具体技术方案如下:
第一方面,提供了一种图像中文本区域的检测方法,所述方法包括:
根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;
将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别。
可选的,所述将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别之后,所述方法还包括:
根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
可选的,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。
可选的,所述根据所述待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别,包括:
将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811605215.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序