[发明专利]字形特征字典制作装置及具备该装置的文档图像处理装置有效
申请号: | 200710129607.X | 申请日: | 2007-07-23 |
公开(公告)号: | CN101354704A | 公开(公告)日: | 2009-01-28 |
发明(设计)人: | 吴波;窦建军;乐宁;吴亚栋;贾靖 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/72;G06K9/46 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 雒运朴;徐谦 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字形 特征 字典 制作 装置 具备 文档 图像 处理 | ||
1.一种字形特征字典制作装置,其特征在于,具有:
抽出部,根据两个或两个以上特征抽出方法,以一个文字为单位抽出文字图像的图像特征;
计算部,将按照每个特征抽出方法抽出的图像特征进行矢量化的同时,合成每个特征抽出方法的特征矢量并计算出合成矢量;
存储部,将计算出的合成矢量作为图像特征以一个文字为单位进行储存。
2.如权利要求1所述的字形特征字典制作装置,其特征在于,上述计算部基于按照每个特征抽出方法决定的权重对每个特征抽出方法的特征矢量进行加权,合成被加权后的特征矢量并计算出合成矢量。
3.如权利要求2所述的字形特征字典制作装置,其特征在于,
上述计算部,根据文字图像的字体种类来设定上述权重,计算出每个字体种类的合成矢量,并从每个字体种类的合成矢量中决定一个代表矢量,
上述存储部,将所决定的代表矢量作为图像特征进行储存。
4.如权利要求3所述的字形特征字典制作装置,其特征在于,上述计算部,依照学习矢量量化方法,来决定代表矢量。
5.如权利要求1所述的字形特征字典制作装置,其特征在于,上述两个或两个以上特征抽出方法,是文字图像外围特征抽出方法、网格方向特征抽出方法及分布方向特征抽出方法。
6.一种文档图像处理装置,其特征在于,具有:
字形特征字典,其由权利要求1所述的字形特征字典制作装置制作;
文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽取出所输入的文档图像中存在的文字图像;
图像特征抽出部,其将由上述文字列抽出部抽取出的文字列的文字图像按单个文字进行分割,并抽出各文字图像的图像特征来作为上述合成矢量;
特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的第1索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,将上述第1索引矩阵的第1列的候补文字与相同行的其它候补文字进行替换,而制作出调整成有意义的文字列的第2索引矩阵;
索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存;
检索部,其在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索上述索引信息储存部,而取出具有第2索引矩阵的文档图像,该第2索引矩阵包含检索文字。
7.如权利要求6所述的文档图像处理装置,其特征在于,上述特征匹配部,使用双字母组或多字母组模型作为语言模型来进行候补文字列的词汇解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710129607.X/1.html,转载请声明来源钻瓜专利网。