[发明专利]文本版心识别方法、电子设备及计算机存储介质有效
申请号: | 201710334158.6 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107169486B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张恒;孙上斌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100124 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本版心识别方法、电子设备及计算机存储介质,其方法包括:从文本中择取预设页数的页面,分为奇数页面组和偶数页面组;分别对每个页面的文字以行为单位进行识别,得到对应的矩形文本对象;针对奇数页面组和偶数页面组中的每一页面组,进行处理:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理;根据矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对矩形文本对象进行过滤处理,得到该页面组的投影页面的有效矩形文本对象,确定该页面组的版心。本发明提供的方法,识别效率高。 1 | ||
搜索关键词: | 页面组 文本对象 投影 计算机存储介质 电子设备 文本 页面 尺寸数据 过滤处理 合并处理 矩形位置 投影处理 文字信息 相交区域 行为单位 有效矩形 重叠设置 页数 预设 垂直 | ||
从文本中择取预设页数的页面,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组;
分别对奇数页面组和偶数页面组中每个页面的文字以行为单位进行识别,得到每个页面中每行文字对应的矩形文本对象;
针对奇数页面组和偶数页面组中的每一页面组,进行如下处理:
对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面;
根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象;
根据该页面组的所述投影页面的有效矩形文本对象,确定该页面组的版心。
2.根据权利要求1所述的方法,其中,在所述从文本中择取预设页数的页面之后,将所述预设页数的页面按照页码分为奇数页面组和偶数页面组之前,所述方法进一步包括:根据各页面中文字的字体和/或字号判断页面是否为包含正文的页面,若否,则去除该页面。
3.根据权利要求1所述的方法,其中,所述对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面进一步包括:对该页面组的页面进行完全重叠设置,以垂直于页面的方向为投影方向对该页面组进行投影处理,将在投影方向上具有相交区域的矩形文本对象按照包括这些矩形文本对象的最小范围进行合并处理,得到包含所述合并处理后的矩形文本对象的该页面组的投影页面。
4.根据权利要求1所述的方法,其中,所述根据该页面组的所述投影页面中矩形文本对象的矩形位置数据、矩形尺寸数据和/或矩形文本对象的文字信息,对所述矩形文本对象进行过滤处理,得到该页面组的所述投影页面的有效矩形文本对象进一步包括:以该页面组的所述投影页面的左下角为原点,设置页面横向为x轴,页面纵向为y轴;
按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第一有效矩形文本对象;
按照所述矩形文本对象的矩形位置数据在y轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行y轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在y轴方向的第二有效矩形文本对象;
按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由小到大排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第三有效矩形文本对象;
按照所述矩形文本对象的矩形位置数据在x轴方向上投影值由大到小排序,依照排序依次对矩形文本对象进行x轴过滤处理,选取最先未被过滤的矩形文本对象作为该页面组的所述投影页面在x轴方向的第四有效矩形文本对象。
5.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行y轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;
和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;
和/或,判断所述矩形文本对象的矩形高度是否小于预设高度,若是,则过滤所述矩形文本对象;
和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。
6.根据权利要求4所述的方法,其中,所述依照排序依次对矩形文本对象进行x轴过滤处理进一步包括:判断所述矩形文本对象的文字信息中包含重复文字内容的重复率是否达到预设重复率,若是,则过滤所述矩形文本对象;
和/或,判断所述矩形文本对象的文字信息中包含的文字内容是否均为数字,若是,则过滤所述矩形文本对象;
和/或,判断所述矩形文本对象的矩形宽度是否小于预设宽度,若是,则过滤所述矩形文本对象。
7.根据权利要求4所述的方法,其中,在所述得到该页面组的所述投影页面的有效矩形文本对象之后,所述方法还包括:分别获取奇数页面组的投影页面的有效边距值y11、y12、x11、x12和偶数页面组的投影页面的有效边距值y21、y22、x21和x22;其中,y11为奇数页面组的投影页面的第一有效矩形文本对象的上边距在y轴方向上的投影值;y12为奇数页面组的投影页面的第二有效矩形文本对象的下边距在y轴方向上的投影值;x11为奇数页面组的投影页面的第三有效矩形文本对象的左边距在x轴方向上的投影值;x12为奇数页面组的投影页面的第四有效矩形文本对象的右边距在x轴方向上的投影值;y21为偶数页面组的投影页面的第一有效矩形文本对象的上边距在y轴方向上的投影值;y22为偶数页面组的投影页面的第二有效矩形文本对象的下边距在y轴方向上的投影值;x21为偶数页面组的投影页面的第三有效矩形文本对象的左边距在x轴方向上的投影值;x22为偶数页面组的投影页面的第四有效矩形文本对象的右边距在x轴方向上的投影值;
y11、y12、x11和x12确定奇数页面组的有效版心;y11为奇数页面组的有效版心的上边距在y轴方向上的投影值;y12为奇数页面组的有效版心的下边距在y轴方向上的投影值;x11为奇数页面组的有效版心的左边距在x轴方向上的投影值;x12为奇数页面组的有效版心的右边距在x轴方向上的投影值;
y21、y22、x21和x22确定偶数页面组的有效版心;y21为偶数页面组的有效版心的上边距在y轴方向上的投影值;y22为偶数页面组的有效版心的下边距在y轴方向上的投影值;x21为偶数页面组的有效版心的左边距在x轴方向上的投影值;x22为偶数页面组的有效版心的右边距在x轴方向上的投影值。
8.根据权利要求7所述的方法,其中:在按照所述矩形文本对
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710334158.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种金属防水阻燃拉链
- 下一篇:拉链头及拉链