[发明专利]一种文档中空格识别方法及系统有效
申请号: | 201610843703.X | 申请日: | 2016-09-22 |
公开(公告)号: | CN106649213B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 李云生;晏检平 | 申请(专利权)人: | 深圳万兴信息科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F16/178 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518057 广东省深圳市南山区高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用于字符识别领域,提供了一种文档中空格识别方法及系统,包括:以文档中行或段为基础单位,分别采集每个所述基础单位内所有的相邻字符之间的空隙宽度值,得到每个所述基础单位对应的初始空隙宽度集合;将所述初始空隙宽度集合作为输入集合,通过空格阈值计算方法对输入集合进行处理,并将得出的空格阈值作为第一空格阈值;依次判断所述基础单位内各相邻字符之间的空隙宽度值是否大于所述第一空格阈值:若大于所述第一空格阈值,则判定该相邻字符间存在空格;若不大于所述第一空格阈值,则判定该相邻字符间不存在空格。无需使用固定的空格宽度来判断空格,使得导致文档中空格识别度得到了提高、识别结果更加准确可靠。 | ||
搜索关键词: | 一种 文档 空格 识别 方法 系统 | ||
【主权项】:
1.一种文档中空格识别方法,其特征在于,包括:以文档中行或段为基础单位,分别采集每个所述基础单位内所有的相邻字符之间的空隙宽度值,得到每个所述基础单位对应的初始空隙宽度集合;将所述初始空隙宽度集合作为输入集合,通过空格阈值计算方法对输入集合进行处理,并将得出的空格阈值作为第一空格阈值;依次判断所述基础单位内各相邻字符之间的空隙宽度值是否大于所述第一空格阈值:若大于所述第一空格阈值,则判定该相邻字符间存在空格;若不大于所述第一空格阈值,则判定该相邻字符间不存在空格;所述空格阈值计算方法包括:分别计算输入集合的数学期望和标准差,并计算所述标准差与所述数学期望的比值;判断所述比值是否小于设定阈值:若所述比值小于设定阈值,则采用所述输入集合中最大空隙宽度值作为空格阈值,并输出所述空格阈值;若所述比值不小于设定阈值,计算所述数学期望与三倍所述标准差之和,得到计算结果,删除所述输入集合中大于所述计算结果的所有所述空隙宽度值,并将删除后的所述输入集合重新通过所述空格阈值计算方法进行处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳万兴信息科技股份有限公司,未经深圳万兴信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610843703.X/,转载请声明来源钻瓜专利网。