[发明专利]电子文档中文字信息处理、输出和字符检索的方法及装置有效
申请号: | 200910091577.7 | 申请日: | 2009-08-26 |
公开(公告)号: | CN101655835A | 公开(公告)日: | 2010-02-24 |
发明(设计)人: | 王毅;丁力;王晓磊;张磊 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正技术研究院有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 黄志华 |
地址: | 100871北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 文档 文字 信息处理 输出 字符 检索 方法 装置 | ||
技术领域
本发明涉及电子文档数据处理领域,尤其涉及一种电子文档中文字信息处理、输出和字符检索的方法及装置。
背景技术
为了能够原版原式的呈现文档的内容,目前在很多应用中采用了版式文件技术,下面简称版式技术。版式技术是可以将文字、图形、图像、音视频、动画等多种数字内容对象按照一定的排版规则排版后进行版面固化呈现的技术。
在版式技术中最重要的一点就是要保证版面内容的描述在具有设备无关性的同时,必须能精确定位每一个数字内容对象,从而保证解析器可以精确还原数字内容的定位信息。比如,在输出一串文字的时候,仅定义首字符的起始坐标是不够精确的,因为这样的话后续的每个字符位置将依赖于解析器和应用系统的环境,如果当前环境中没有对应的字体,解析器一般会进行字体替换,而不同字体的字宽信息是可能不同的,这样就会导致后续字符位置发生偏移。
因此,现阶段的排版输出为了保证字符的精确定位,往往会采用单字符的输出方式,也就是针对每个字符都保存一个字符节点,该字符节点存储该字符、该字符的坐标信息以及其它与输出该字符相关的信息。在进行字符串输出时,需要按照字符串的字符排版顺序,查找各字符对应的字符节点,然后读取该字符节点中存储的字符和该字符的坐标信息等,进而按照读取到的坐标信息在对应的位置输出并显示该字符。
同样的,在进行字符检索的时候,需要逐个读取字符节点中的字符,将读取到的字符与待检索的字符进行比对,若两者一致,则根据该字符节点中的坐标信息将该字符作为检索结果输出。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
现有技术中对于每个字符都要保存该字符的坐标信息,需要占用系统较大的存储资源,并且,在需要输出字符串对字符串包含的字符进行定位时,需要逐个读取各字符对应的字符节点中存储的字符和该字符的坐标信息,进而根据坐标信息输出该字符,定位效率较低,进而影响了字符串的输出速度。
发明内容
本发明实施例提供一种电子文档中文字信息处理、输出和字符检索的方法及装置,用于节省字符串的定位信息所占用的存储资源以及提高字符输出和字符检索效率。
一种电子文档的文字信息处理方法,该方法包括:
选取所述电子文档中位于同一行或同一列的多个字符作为一个字符串,所述多个字符的字体和字号相同并且位置连续;
获取所述字符串中第一个字符在所述电子文档中的位置信息,并确定所述字符串的相邻字符距离;
将所述第一个字符在所述电子文档中的位置信息和所述相邻字符距离作为所述字符串的定位信息与所述字符串进行关联存储。
一种利用上述电子文档的文字信息处理方法中存储的信息进行字符输出的方法,该方法包括:
读取存储的字符串以及该字符串的定位信息;
对于所述字符串中除第一个字符外其它各字符,根据所述定位信息确定该字符的输出位置信息;
根据确定的字符的输出位置信息对该字符进行输出。
一种利用上述电子文档的文字信息处理方法中存储的信息进行字符检索的方法,该方法包括:
读取存储的字符串以及该字符串的定位信息;
将输入的待检索字符与读取的字符串进行匹配;
根据所述字符串的定位信息,确定所述字符串中与所述待检索字符匹配成功的字符的位置信息;
根据所述字符的位置信息查找到该字符,并将该字符作为字符检索结果返回。
一种电子文档的文字信息处理装置,该装置包括:
字符选取单元,用于选取所述电子文档中位于同一行或同一列的多个字符作为一个字符串,所述多个字符的字体和字号相同并且位置连续;
位置获取单元,用于获取所述字符串中第一个字符在所述电子文档中的位置信息;
距离确定单元,用于确定所述字符串的相邻字符距离;
信息存储单元,用于将所述第一个字符在所述电子文档中的位置信息和所述相邻字符距离作为所述字符串的定位信息与所述字符串进行关联存储。
一种利用电子文档的文字信息处理装置进行字符输出的装置,该装置包括:
信息读取单元,用于读取所述电子文档的文字信息处理装置存储的字符串以及该字符串的定位信息;
位置确定单元,用于对于所述字符串中除第一个字符外其它各字符,根据所述定位信息确定该字符的输出位置信息;
字符输出单元,用于根据所述位置确定单元确定的字符的输出位置信息对该字符进行输出。
一种利用电子文档的文字信息处理装置进行字符检索的装置,该装置包括:
信息读取单元,用于读取存储的字符串以及该字符串的定位信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正技术研究院有限公司,未经北大方正集团有限公司;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091577.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:建立模型的装置和方法
- 下一篇:一种支持优先级的队列的实现方法