[发明专利]检测并重构固定格式文档中的东亚布局特征有效
申请号: | 201480026958.6 | 申请日: | 2014-02-28 |
公开(公告)号: | CN105247509B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | D·扎里克;M·舍舒姆;M·拉扎里维克;M·拉斯科维克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06K9/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 并重 固定 格式 文档 中的 东亚 布局 特征 | ||
1.一种用于在固定格式文档中检测中文、日文、或韩文文本的方法,所述方法包括:
接收固定格式文档,所述固定格式文档包括一个或多个页面上的一个或多个文本串;
分析页面上的所述一个或多个文本串以寻找中文、日文、或韩文字符中的至少一个;
如果至少一个中文、日文、或韩文字符在所述页面上被找到,则分析所述页面上的所述一个或多个文本串以确定所述页面的文本方向,包括:
以水平行和以垂直行来分析所述一个或多个文本串;
对于每个文本串,确定所述文本串是否适合文本串的水平或垂直序列;
对每个水平文本串和每个垂直文本串中的字符的数量进行计数;以及
如果相比所述水平文本串而言更多的字符处在所述垂直文本串中,则确定所述页面包括垂直文本;以及
如果所述页面包括垂直文本,则将所述垂直文本逆时针旋转90°以供布局分析,以在流格式文档中重构。
2.如权利要求1所述的方法,其特征在于,进一步包括:
在将所述垂直文本逆时针旋转90°后,将所述垂直文本沿垂直轴向下平移页宽。
3.如权利要求1所述的方法,其特征在于,进一步包括:
在布局分析被执行后,将先前旋转的文本串沿垂直轴向上平移页高,并将先前旋转的文本串顺时针旋转90°。
4.如权利要求1所述的方法,其特征在于,进一步包括在流格式文档中将所述垂直文本重建为流格式垂直文本。
5.如权利要求1所述的方法,其特征在于,进一步包括:
分析页面上的所述一个或多个文本串以寻找有垂直重叠的一个或多个文本串;
如果文本串具有与另一文本串的垂直重叠,则将垂直重叠的文本串分派到桶;
如果文本串不具有与另一文本串的垂直重叠,则将所述文本串分派到分开的桶;
分析桶以寻找多个文本串;以及
如果桶包括多个文本串,则将所述多个文本串指定为垂直中的水平文本。
6.如权利要求1所述的方法,分析页面上的所述一个或多个文本串以寻找中文、日文、或韩文字符中的至少一个包括:
判断是否所述一个或多个文本串中至少一个字符在用于中文、日文、或韩文字符的Unicode范围内。
7.如权利要求1所述的方法,还包括:
在分析页面上的所述一个或多个文本串以寻找中文、日文、或韩文字符中的至少一个之前,将页眉或页脚从文档主体分离,所述文档主体包含所述一个或多个文本串。
8.如权利要求5所述的方法,还包括:
判断每个均是桶中的单个文本串的一个或多个文本串是否包括带垂直重叠的字形;并且
如果所述每个均是桶中的单个文本串的一个或多个文本串包括带垂直重叠的字形,则将所述每个均是桶中的单个文本串的一个或多个文本串指定为垂直中的水平文本。
9.如权利要求5所述的方法,还包括:
将所述垂直中的水平文本重构为在流格式文档中的流格式的垂直中的水平文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480026958.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:压罐器槽式底板的制造工艺
- 下一篇:专用异形扳手制造工艺