[发明专利]字形特征字典制作装置及具备该装置的文档图像处理装置有效
申请号: | 200710129607.X | 申请日: | 2007-07-23 |
公开(公告)号: | CN101354704A | 公开(公告)日: | 2009-01-28 |
发明(设计)人: | 吴波;窦建军;乐宁;吴亚栋;贾靖 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/72;G06K9/46 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 雒运朴;徐谦 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种字形特征字典制作装置和具备该装置的文档图像处理装置,其中,抽取出文档图像中的文字数为M个的文字列的图像,并将其分割成单个文字而抽出各文字图像的图像特征,基于该图像特征,从将文字图像的图像特征以单个文字为单位储存着的字形特征字典(15)中,按匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,制作所抽取出的文字列的文字数M×N维的第1索引矩阵。对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,制作将候补文字列调整成有意义的文字列的第2索引矩阵,并用于检索中。由此,可使检索精度进一步提高。 | ||
搜索关键词: | 字形 特征 字典 制作 装置 具备 文档 图像 处理 | ||
【主权项】:
1.一种字形特征字典制作装置,其特征在于,具有:抽出部,根据两个或两个以上特征抽出方法,以一个文字为单位抽出文字图像的图像特征;计算部,将按照每个特征抽出方法抽出的图像特征进行矢量化的同时,合成每个特征抽出方法的特征矢量并计算出合成矢量;存储部,将计算出的合成矢量作为图像特征以一个文字为单位进行储存。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710129607.X/,转载请声明来源钻瓜专利网。