[发明专利]检测并重构固定格式文档中的东亚布局特征有效
申请号: | 201480026958.6 | 申请日: | 2014-02-28 |
公开(公告)号: | CN105247509B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | D·扎里克;M·舍舒姆;M·拉扎里维克;M·拉斯科维克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06K9/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了东亚布局特征的检测和东亚布局特征的重构。固定格式文档中的垂直书写的文本被检测并旋转以供布局分析。在布局分析之后,经旋转的文本被旋转回去并在流格式文档中重构。当多个字符水平地被书写在文本的垂直行中时,垂直重叠文本串被检测,并分派作为垂直中的水平文本,并被重建为流格式文档中的垂直中的水平文本。文本的行被分析以寻找ruby行的属性,并被分派作为与ruby基础行中的对应文本相关联的ruby文本,并在流格式文档中被重建为ruby文本。在固定格式文档中的文本被分析用于特定东亚语言的检测,使得该语言的字体在流格式文档中被指定。 | ||
搜索关键词: | 检测 并重 固定 格式 文档 中的 东亚 布局 特征 | ||
【主权项】:
1.一种用于在固定格式文档中检测中文、日文、或韩文文本的方法,所述方法包括:接收固定格式文档,所述固定格式文档包括一个或多个页面上的一个或多个文本串;分析页面上的所述一个或多个文本串以寻找中文、日文、或韩文字符中的至少一个;如果至少一个中文、日文、或韩文字符在所述页面上被找到,则分析所述页面上的所述一个或多个文本串以确定所述页面的文本方向,包括:以水平行和以垂直行来分析所述一个或多个文本串;对于每个文本串,确定所述文本串是否适合文本串的水平或垂直序列;对每个水平文本串和每个垂直文本串中的字符的数量进行计数;以及如果相比所述水平文本串而言更多的字符处在所述垂直文本串中,则确定所述页面包括垂直文本;以及如果所述页面包括垂直文本,则将所述垂直文本逆时针旋转90°以供布局分析,以在流格式文档中重构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201480026958.6/,转载请声明来源钻瓜专利网。
- 上一篇:压罐器槽式底板的制造工艺
- 下一篇:专用异形扳手制造工艺