[发明专利]文档图像处理装置和文档图像处理方法有效
申请号: | 200710129606.5 | 申请日: | 2007-07-23 |
公开(公告)号: | CN101354703A | 公开(公告)日: | 2009-01-28 |
发明(设计)人: | 吴波;窦建军;乐宁;吴亚栋;贾靖 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/72;G06K9/46 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 雒运朴;徐谦 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。 | ||
搜索关键词: | 文档 图像 处理 装置 方法 | ||
【主权项】:
1.一种文档图像处理装置,其特征在于,具有:字形特征字典,其以单个文字为单位储存有文字图像的图像特征;文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽取出所输入的文档图像中存在的文字图像;图像特征抽出部,其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的第1索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,而制作出调整成有意义的文字列的第2索引矩阵;索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存;检索部,其在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索上述索引信息储存部,而取出具有包含检索文字的第2索引矩阵的文档图像。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710129606.5/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序