[发明专利]文档处理装置、文档处理方法以及扫描仪有效
申请号: | 201210177541.2 | 申请日: | 2012-05-31 |
公开(公告)号: | CN103455806B | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 潘屹峰;孙俊;何源;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王萍,陈炜 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了一种文档处理设备和设备以及扫描仪。该文档处理装置包括文本行提取单元,其从所输入的文档中提取文本行;语言分类单元,其确定所输入的文档的语言是否需要进行OCR处理;OCR单元,其在确定需要进行OCR时,通过进行OCR处理来确定OCR置信度;图形特征识别单元,其确定图形特征识别置信度;以及确定单元,其基于图形特征识别置信度以及OCR置信度中的至少一项来确定组合置信度,并且基于组合置信度来确定所输入的文档的朝向。根据本公开的技术方案,可以更好地判断文档的朝向,尤其适合于在文档的图像质量退化时判断文档的朝向。 | ||
搜索关键词: | 文档 处理 装置 方法 以及 扫描仪 | ||
【主权项】:
一种文档处理设备,其包括:文本行提取单元,其被配置为从所输入的文档中提取至少一个文本行;语言分类单元,其被配置为通过图形特征识别处理来确定所输入的文档的语言是否需要进行光学字符识别处理;光学字符识别单元,其被配置为在确定所输入的文档的语言需要进行光学字符识别时,通过进行光学字符识别处理来为至少一部分文本行中的每个确定针对各候选方向的光学字符识别置信度;图形特征识别单元,其被配置为通过进行图形特征识别处理来为每个文本行确定针对各候选方向的图形特征识别置信度;以及确定单元,其被配置为基于所确定的图形特征识别置信度以及光学字符识别置信度中的至少一项来为所述至少一部分文本行中的每个确定针对各候选方向的组合置信度,并且基于组合置信度来确定所输入的文档的朝向,其中所述文本行提取单元还被配置为计算每个文本行是文档中的文字的行的可能性作为文本行置信度,所述光学字符识别单元还被配置为按照所述文本行置信度从高至低的顺序来逐个为每个文本行确定光学字符识别置信度,直到所述确定单元确定了文档的朝向为止,以及所述确定单元还被配置为按照所述文本行置信度从高至低的顺序来逐个为每个所述至少一部分文本行确定组合置信度,基于已确定的组合置信度和所述文本行置信度来确定针对各候选方向的当前置信度,并且在当前置信度中的最大值符合第一预定条件时将该当前置信度所对应的候选方向确定为所输入的文档的朝向。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210177541.2/,转载请声明来源钻瓜专利网。
- 上一篇:分布式冷热电联供系统并网运行在线优化方法
- 下一篇:信息查询发布系统