[发明专利]文本检测方法、装置、存储介质和计算机设备在审
申请号: | 201710874973.1 | 申请日: | 2017-09-25 |
公开(公告)号: | CN108304761A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 刘铭 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/08 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待检测图像 预测图像 子区域 文本检测 文本特征信息 计算机设备 存储介质 目标特征 文本区域 连接层 矩阵 神经网络模型 子区域确定 矩阵输入 输出目标 特征矩阵 文本聚类 元素映射 鲁棒性 文本行 锚点 算法 预设 检测 预测 | ||
1.一种文本检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入至神经网络模型,输出目标特征矩阵;
将所述目标特征矩阵输入至全连接层,所述全连接层根据预设锚点区域将所述目标特征矩阵的各个元素映射到所述待检测图像对应的预测图像子区域;
获取所述预测图像子区域的文本特征信息,根据所述预测图像子区域的文本特征信息通过文本聚类算法将预测图像子区域连接成对应的预测文本行,确定所述待检测图像对应的文本区域。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测图像输入至神经网络模型,输出目标特征矩阵的步骤包括:
对所述待检测图像进行特征提取得到第一特征矩阵,所述第一特征矩阵中的元素为二维元素;
将所述第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵;
将所述前向特征矩阵和后向特征矩阵拼接得到所述目标特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征矩阵输入双向长短期记忆网络模型得到前向特征矩阵和后向特征矩阵的步骤,包括:
获取当前滑窗矩阵的当前位置,根据当前位置计算所述当前滑窗矩阵与所述第一特征矩阵的当前卷积结果,所述当前滑窗矩阵包括前向滑窗矩阵和后向滑窗矩阵;
利用激活函数根据所述当前卷积结果与当前滑窗矩阵的前一个位置对应的长短期记忆网络模型的内部状态值得到所述长短期记忆网络模型当前位置对应的内部状态值;
滑动当前滑窗矩阵得到下一个位置,进入所述获取当前滑窗矩阵的当前位置的步骤,直至所述当前滑窗矩阵遍历所述第一特征矩阵的元素;
将各个当前滑窗矩阵在不同位置对应的内部状态值进行处理生成当前特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述预设锚点区域的宽度值为固定值;获取所述预测图像子区域的文本特征信息的步骤包括:
根据所述预设锚点区域的宽度值和所述目标特征矩阵的各个元素对应的第一维度坐标获取各个预测图像子区域的水平位置;
获取各个预测图像子区域的竖直方向预测偏移量,根据所述竖直方向预测偏移量、对应的预设锚点区域的高度值和中心坐标数值分量进行计算,分别得到各个预测图像子区域对应的预测高度值和中心点竖直方向实际偏移量;
根据所述水平位置、预测高度值和中心点竖直方向实际偏移量确定各个预测图像子区域的文本位置信息。
5.根据权利要求1所述的方法,其特征在于,所述文本特征信息包括文本位置信息;根据所述预测图像子区域的文本特征信息和预设文本聚类算法将预测图像子区域连接成对应的预测文本行的步骤,包括:
将各个预测图像子区域作为候选文本子区域,获取当前候选文本子区域对应的第一文本位置信息;
根据所述第一文本位置信息获取与所述当前候选文本子区域的距离小于预设距离阈值且竖直方向重叠度大于预设重叠度的目标候选文本子区域,将距离所述当前候选文本子区域最近的所述目标候选文本子区域作为相邻候选文本子区域;
获取所述当前候选文本子区域对应的下一个候选文本子区域作为当前候选文本子区域,进入所述获取当前候选文本子区域对应的第一文本位置信息的步骤,直至遍历候选文本子区域;
将候选文本子区域与对应的相邻候选文本子区域连接成对应的预测文本行。
6.根据权利要求5所述的方法,其特征在于,所述文本特征信息包括文本置信度;所述将各个预测图像子区域作为候选文本子区域的步骤包括:
获取各个预测图像子区域对应的文本置信度;
根据所述文本置信度对各个预测图像子区域进行非极大值抑制,得到文本置信度大于预设文本置信度的预测图像子区域作为候选文本子区域。
7.根据权利要求1所述的方法,其特征在于,所述根据所述图像子区域的文本特征信息和预设文本聚类算法将预测图像子区域连接成对应的预测文本行的步骤之后,还包括:
获取各个预测文本行对应的预测水平方向偏移量,根据所述预测水平边界偏移量修正所述预测文本行的水平边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710874973.1/1.html,转载请声明来源钻瓜专利网。