[发明专利]信息处理设备和信息处理方法有效
申请号: | 201310287019.4 | 申请日: | 2013-07-09 |
公开(公告)号: | CN103870800B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 田中瑛一 | 申请(专利权)人: | 富士施乐株式会社 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;李铭 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 | ||
本发明公开了信息处理设备和信息处理方法。信息处理设备包括形态分析单元、特征值矢量生成单元和确定度计算单元。所述形态分析单元对字符识别结果执行形态分析。所述特征值矢量生成单元针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量。所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度。所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成。所述确定度计算单元根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。
技术领域
本发明涉及信息处理设备和信息处理方法。
背景技术
在日本未审查专利申请公开第63-24381中,公开了一种在字符识别之后执行、并使用形态分析以检测并改正被误读字符的后处理方法。通过使用字符识别中所确定的距离来预先针对所有第一候选字符检测误读。使用所检测到的误读来检测在形态分析中还未检测到的被误读字符。
在日本未审查专利申请公开第05-89281中,公开了一种方法以便能够以高误读检出率来检测误读,并简化改正误读的操作,从而实现操作所需时间的减少。在该方法中,通过执行包括对从字符识别设备获得的识别结果检测出的未登记单词的误读的改正来获得数据。通过参考字符形状类似且单汉字字符无变形的词典、包括形状彼此类似的字符的词典、低频相邻的片假名字符、和用于括号的字符形状类似的字符数据等,误读检测单元使用所获得的数据以高准确度地检测可能被误读或可能包括误读的分段。
在日本未检查专利申请公开第09-134410中,公开了一种方法以便以高准确度地评估有多大可能识别结果字符是正确的。在该方法中,语言处理确定度计算单元使用从语言处理单元获得的信息以从语言处理确定度表检索确定度。当检索到的确定度为高时,将检索到的确定度输出为针对识别结果字符的确定度。当检索到的确定度为低时,针对处理器的确定度计算单元使用从处理器提供的参数以获得针对处理器的确定度。通过控制各确定度的权重来合并这些确定度和通过语言处理获得的确定度,并确定最终确定度。将最终确定度输出为针对识别结果字符的确定度。
在Taku kudo、Kaoru Yamamoto和Yuji Matsumoto所写的“Applying ConditionalRandom Fields to Japanese Morphological Analysis”(Proc.Of EMNLP,第230-237页,2004)(以下称为非专利文献1)中,公开了基于条件随机场(CRF)的日文形态分析。
在Hideki Shimomura、Mitaro Namiki、Masaki Nakagawa和Nobumasa Tahahashi所写的“Saisho-kosutopasu-tansaku-moderu–no–ketaisokaiseki–nimotozuku–nihonbun–ayamari–kenshutsu–no–ichi-hoshiki(基于使用最小成本路径搜索的形态分析的用于在日语句子中检测错误的方法)”(Trans.IPS Japan,第33卷,第4期,1992年4月)(以下称为非专利文献2)中,公开了成本比较方法,其中利用了当分析包括错误的句子时分析结果的成本较大的事实,并且其中通过将分析结果中各单词的成本与阈值进行比较来检测错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士施乐株式会社,未经富士施乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310287019.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟试妆的方法和系统
- 下一篇:打印装置以及打印方法