[发明专利]文档的文字提取方法和装置无效

申请号：	201010195292.0	申请日：	2010-05-31
公开（公告）号：	CN102262619A	公开（公告）日：	2011-11-30
发明（设计）人：	楼永植;陈峻峰	申请（专利权）人：	汉王科技股份有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06K9/20
代理公司：	暂无信息	代理人：	暂无信息
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文档的文字提取方法和装置，属于数据加工领域。方法包括：步骤1：解析文档，获取文档中字体的对应信息，根据对应信息得到字符映射表；步骤2：根据字体对应信息得到各字符对应的字模图像；步骤3：将字模图像进行裁剪，得到字模图像对应的着墨区域；步骤4：对着墨区域进行字符识别，得到各字符的识别结果；步骤5：根据识别结果对字符映射表进行更新，并根据更新后的字符映射表对文档提取文本信息。本发明改进了数据加工的流程，也减少了数据的加工工作量，使随机编码的打包字体不会成为数据加工的障碍。对于特定的版式文档无需识别页面图像，即可获得正确的文本信息，最大限度减少了人工干预，保留了文档的格式和逻辑信息。
搜索关键词：	文档文字提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种文档的文字提取方法，其特征在于，包括以下步骤：步骤1：解析文档，获取文档中字体的对应信息，根据对应信息得到字符映射表；步骤2：根据字体对应信息得到各字符对应的字模图像；步骤3：将字模图像进行裁剪，得到字模图像对应的着墨区域；步骤4：对着墨区域进行字符识别，得到各字符的识别结果；步骤5：根据识别结果对字符映射表进行更新，并根据更新后的字符映射表对文档提取文本信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司，未经汉王科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010195292.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文档的文字提取方法和装置无效

专利文献下载