[发明专利]文本识别方法和计算机程序产品有效

专利信息
申请号: 201580066282.8 申请日: 2015-12-02
公开(公告)号: CN107004140B 公开(公告)日: 2021-01-12
发明(设计)人: 韦尔夫·伍兹里希 申请(专利权)人: 星球智能有限责任公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/72
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健;陈红
地址: 德国哈本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 识别 方法 计算机 程序 产品
【说明书】:

发明涉及一种文本识别方法,其中所述方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示;输入正则表达式;搜索输入序列的与正则表达式匹配的符号序列,其中,处理器使用置信矩阵的置信度值来计算得分值,其中所述得分值是输入序列的符号序列与正则表达式之间的匹配品质的指示。此外,本发明涉及一种计算机程序产品,该计算机程序产品在由计算设备的处理器执行时,执行该方法。

技术领域

本公开涉及一种文本识别方法和计算机程序产品。

背景技术

从历史手稿或其它文件类型以及从语音文本序列进行计算机辅助信息检索仍然是非常困难和受限制的。

基于样本序列的直接搜索是非常慢的过程,并且不能推广到其它书写风格或语音中的其它口音。基于预先转录的计算机代码(例如ASCII)的搜索是快速的,但是其需要昂贵(时间和人力资源)的并且容易出错的手动转录过程。

在文献A.Graves,et al.,“A Novel Connectionist System for UnconstrainedHandwriting Recognition(一种用于无约束手写识别的新型联结系统)”,IEEETransactions of pattern analysis and machine intelligence(IEEE模式分析与机器智能汇刊),vol.31,no.5,May 2009(2009年第31卷第5期)中,公开了一种用于识别无约束手写文本的方法。该方法基于设计用于序列标注任务的递归神经网络,对于该序列标注任务,数据难以分割并包含远程双向相互依赖(interdependent)。

文献US 2009/0077053A1公开了一种用于搜索一组墨水数据(ink data)中的术语的方法。该方法包括以至少一个分割图的形式将墨水数据转换成中间格式的中间数据的操作。分割图的每个节点包括至少一个墨水段,该墨水段与对应于至少一个识别单元的假设相关联。该方法还包括用于对中间数据执行的、搜索术语的操作。

发明内容

目的是提供改进的文本识别技术。

提供了文本识别方法和计算机程序产品。其它实施例是从属权利要求的主题。

一方面,提供了一种文本识别方法。该方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示;输入正则表达式;搜索所述输入序列的与所述正则表达式相匹配的符号序列,其中,所述处理器使用所述置信矩阵的置信度值来计算得分值,其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示。所述搜索的步骤是对所述置信矩阵执行的。换句话说,正则表达式可直接应用于置信矩阵,用于解码符号序列。

另一方面,公开了一种计算机程序产品,其中所述计算机程序产品在由计算设备的处理器执行时,适于执行所述方法的步骤。该计算机程序产品可存储在非暂时性介质上。

置信矩阵(也称为ConfMat)是任意长度的二维矩阵,其在横轴(x轴或t轴)的每个位置处包含N维向量。每个向量元素对应于某个符号通道。例如,在数字0到9被编码的情况下,需要N=10个符号通道。可以引入附加通道,NaC通道(非字符通道)。NaC通道表示所有其它编码符号通道的补充(例如,未知符号或符号转换)。矩阵内的每个横向位置对应于输入序列的某个位置。这可以是1:1映射或1:S映射,其中矩阵列x对应于输入序列位置x*S。S称为子采样因子。

置信度值是实数值,该实数值与输入序列中相应位置处的某个符号的置信度或甚至概率相关。置信度值越高,分类器(例如,分类器模块)越高或越多地确定在特定序列位置处“看到”特定符号。置信度值可为伪概率。这种概率估计允许清洗(clean)数学处理。此外,可使用其它置信度值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星球智能有限责任公司,未经星球智能有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201580066282.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top