[发明专利]一种针对竖排文本的检测方法及装置有效
申请号: | 202110588830.0 | 申请日: | 2021-05-28 |
公开(公告)号: | CN115410207B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 贾云刚;李超;王勇;赵淳璐;梁睿琪;孙捷;高一骄;孙海亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06F40/289;G06F40/216 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
地址: | 300199 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 竖排 文本 检测 方法 装置 | ||
1.一种针对竖排文本的检测方法,其步骤包括:
1)扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;
2)截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本,其中t≥3;
3)对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;其中,所述根据得到第一分词结果,获取截取文本的初步检测结果,包括:
设定一阈值;
若第一分词结果中单字的数量大于所述阈值,则判断截取文本为竖排文本;否则,判断为横排文本;
4)若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;
5)对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果;其中,所述根据得到第二分词结果,获取截取文本的检测结果,包括:
将第二分词结果中词汇的数量与第一分词结果中词汇的数量进行对比;
若第二分词结果中词汇的数量大于第一分词结果中词汇的数量,则判断截取文本为竖排文本;否则,判断为横排文本。
2.如权利要求1所述的方法,其特征在于,所述有效字符包括:汉字、大小写英文字母、阿拉伯数字和换行符。
3.如权利要求1所述的方法,其特征在于,对保留文本进行分词的方法包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP开源分词工具。
4.如权利要求1所述的方法,其特征在于,通过以下步骤得到二维的字符矩阵:
1)删除截取文本中的分隔字符;
2)将删除后的截取文本,转换为二维字符矩阵。
5.如权利要求1所述的方法,其特征在于,对判断为竖排文本的检测结果进行修正的方法包括:基于规则的文本纠错方法、基于深度学习模型的文本纠错方法、基于神经机器翻译的文本纠错方法、基于动态文本窗口和权重动态分配的文本纠错方法或基于word2vec的文本纠错方法。
6.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-5中任一所述方法。
7.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-5中任一所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588830.0/1.html,转载请声明来源钻瓜专利网。