[发明专利]一种扫描版文档重排版的方法有效
申请号: | 201110302266.8 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102890826A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 安宇;王川 | 申请(专利权)人: | 北京多看科技有限公司 |
主分类号: | G06T11/60 | 分类号: | G06T11/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扫描 文档 排版 方法 | ||
1.一种扫描版文档重排版的方法,其特征在于,包括以下步骤:
A、将扫描版文档生成图像,对生成的图像进行采样获得待处理的彩色图像;
B、将采样获得的彩色图像转化为二值图;
C、对二值图进行游程平滑;
D、对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;
E、将初始块进行水平合并,得出文字的行信息和图片位置;
F、将水平合并后的块进行垂直合并,得出文字段落位置;
G、根据文字段落位置和图片位置,对段落进行文字切分,首先在段落区域位置内进行水平投影,确定每行文字的位置,然后在一行的区域位置内进行垂直投影,确定每个文字的位置;
H、确定各段文字的阅读顺序;
I、根据文字段落位置、图片位置和文字段落中文字的位置,将文字和图片按照预先指定的全图宽度和高度排版成新的图像。
2.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,还包括以下步骤:
J、将排版后的新图像放大或缩小至电子阅读设备需要显示的尺寸。
3.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤A中,对生成的图像进行采样,采样值采用矩阵fjk形式来表示,矩阵中的每一元素fjk取值如下:
fjk = f(X0+j*dX,Y0+k*dY),
其中,j为0到Mx–1的整数,k为0到My–1的整数,X0和Y0为初始坐标,dX和dY为步长,Mx和My分别为矩阵fjk的列数和行数,即在X、Y方向的采样点数。
4.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤B进一步包括以下步骤:
B1、将采样获得的彩色图像转化为灰度图;
B2、采用全局自适应阈值方法将灰度图转换为二值图。
5.根据权利要求4所述的一种扫描版文档重排版的方法,其特征在于,步骤B1中,将采样获得的彩色图像转化为灰度图采用以下公式:
Y=0.299*R+0.587*G+0.114*B,其中R、G和B分别为彩色图像的红色、绿色和蓝色分量,Y为灰度值。
6.根据权利要求4所述的一种扫描版文档重排版的方法,其特征在于,步骤B2中,如果灰度图是白底黑字,则二值图中文字部分所在像素取值为0,其余部分取值为1。
7.根据权利要求4或者6所述的一种扫描版文档重排版的方法,其特征在于,步骤B2中,还包括对二值图进行矫正,进一步包括以下步骤:
采用侧面投影的方法确定图像的倾斜角度,
即采用f(x,y)表示白底黑字的二值图,图像外区域f(x,y) = 1,二值图Mx列、My行,当前的投影方向与X轴成θ角,
Sk=∑jf(Xj,Yk+Xj*tanθ),为一行的投影值,
若Sk等于Mx则取Sk=1,表示该行投影上无黑点,
若Sk小于Mx则取Sk=0,表示该行投影上有黑点,
Tθ= ∑kSk,表示θ角对应的全图投影值,
在限定范围内以预定步长变换θ值,Tθ值最大的角度就是图像的倾斜角度;
根据计算出的倾斜角度,采用二次线性插值将灰度图进行旋转,然后重复步骤B2得到矫正后的二值图。
8.根据权利要求1或者6所述的一种扫描版文档重排版的方法,其特征在于,步骤C中,对二值图进行游程平滑是根据二值图中的数据0和数据1的个数来处理的,预定一个平滑值C,当二值图中连续的1的个数小于等于C时,这一串1将被0所取代。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京多看科技有限公司,未经北京多看科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110302266.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:洗碗机掉电处理电路及控制方法
- 下一篇:具分离装置的干湿两用吸尘器