[发明专利]文本分析方法、装置、终端和计算机可读存储介质在审
申请号: | 201910824902.X | 申请日: | 2019-09-02 |
公开(公告)号: | CN112446262A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 贺涛;曾志辉 | 申请(专利权)人: | 深圳中兴网信科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 518109 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分析 方法 装置 终端 计算机 可读 存储 介质 | ||
1.一种文本分析方法,其特征在于,包括:
对文本图像进行水平投影和垂直投影,生成水平投影数据和垂直投影数据,其中,所述文本包含多个字符,所述字符包括文字和/或限定所述文字位置的线段;
根据所述水平投影数据确定所述文本图像中的文本在水平方向上的坐标区域,以及根据所述垂直投影数据确定所述文本图像中的文本在垂直方向上的坐标区域,其中,所述水平方向上的坐标区域对应所述字符的上边界和下边界,所述垂直方向上的坐标区域对应所述字符的左边界和右边界,根据所述上边界、所述下边界、所述左边界和所述右边界确定所述字符的位置信息;
根据所述位置信息识别所述字符,根据识别结果统计出所述文本图像中的文字个数。
2.根据权利要求1所述的文本分析方法,其特征在于,所述根据所述位置信息识别所述字符,根据识别结果统计出所述文本图像中的文字个数,具体包括:
计算出所述文本图像的像素值均值;
根据所述字符的位置信息确定文本框,计算出文本框内的像素值均值;
根据所述文本图像的像素值均值以及所述文本框内的像素值均值,确定所述文本框内包含文字,记录文字个数。
3.根据权利要求1所述的文本分析方法,其特征在于,还包括:
根据颜色定位所述文本图像中的干扰信息并删除所述干扰信息。
4.根据权利要求3所述的文本分析方法,其特征在于,所述干扰信息为叠加在文本上的批改痕迹,则所述根据颜色定位所述文本图像中的干扰信息并删除所述干扰信息,具体包括:
根据所述批改痕迹的颜色在所述文本图像中识别出所述批改痕迹,读取所述批改笔迹的轮廓,将所述轮廓的内部填充为白色。
5.根据权利要求1至4中任一项所述的文本分析方法,其特征在于,还包括:
根据所述文本图像中的定位标记进行倾斜校正;或者
根据所述文本图像中的直线线段的方向进行倾斜校正。
6.根据权利要求1至4中任一项所述的文本分析方法,其特征在于,还包括:
检测所述文本图像中的空白区域;
根据所述空白区域分割所述文本图像,以确定所述文本图像的版面,其中,所述文本图像包括一个或多个版面。
7.根据权利要求1至4中任一项所述的文本分析方法,其特征在于,所述统计出所述文本图像中的文字个数,具体包括:
根据文本的段落书写规范、题目书写规范和标点符号情况优化统计过程,具体优化步骤包括一下任一项或其组合:
默认每段文字的首行前两格为空;
默认段落最后一行未被填满的情况下会存在空白格;
默认文本题目在第一版面的第一行;
默认文本最后一行之后的位置为空白行;
标点符号计算在文字总数中或标点符合不视为文字。
8.一种文本分析装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时能够实现如权利要求1至7中任一项所述的文本分析方法限定的步骤。
9.一种终端,其特征在于,包括:
如权利要求8所述的文本分析装置。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时,实现如权利要求1至7中任一项所述的文本分析方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中兴网信科技有限公司,未经深圳中兴网信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910824902.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:连接器设备
- 下一篇:一种终端结构制造方法