[发明专利]一种文档图像关键信息提取方法及系统在审
申请号: | 202010051006.7 | 申请日: | 2020-01-17 |
公开(公告)号: | CN111242060A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 周钊;郑莹斌;叶浩 | 申请(专利权)人: | 上海兑观信息科技技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/903 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 韦志刚 |
地址: | 201203 上海市浦东新区中国(上海)自由贸易试*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 图像 关键 信息 提取 方法 系统 | ||
1.一种文档图像关键信息提取方法,其特征在于:包括以下步骤:
S1、对模板图像进行文字检测和识别,标注关键信息的位置;
S2、输入待提取关键信息的待测图像,对其进行文字检测和识别;
S3、利用关键信息提取算法提取待测图像的关键信息。
2.如权利要求1所述的一种文档图像关键信息提取方法,其特征在于:所述利用关键信息提取算法提取待测图像的关键信息,具体为:
S301、利用最长公共子序列算法判断模板图像和待测图像的字符串两两之间是否是匹配关系,所述模板图像和所述待测图像均为一张图像;
S302、求解两张图像的行两两之间字符串的最优匹配,以及达到最优匹配时的分数;
S303、根据两张图像行间匹配的分数计算全局最优匹配;
S304、确定待测图像中与模板标注出的关键信息匹配的字符串,提取这些字符串作为最终关键信息提取的结果。
3.如权利要求2所述的一种文档图像关键信息提取方法,其特征在于:所述利用最长公共子序列算法判断两张图像的字符串两两之间是否是匹配关系,具体为:先使用最长公共子序列算法求解两个字符串的最长公共子序列长度,若该长度大于预设阈值,则判断为这两个字符串为匹配关系。
4.如权利要求2所述的一种文档图像关键信息提取方法,其特征在于:所述求解两张图像的行两两之间字符串的最优匹配,以及达到最优匹配时的分数,具体为:将字符串按检测得到的位置排列,纵轴方向的坐标差值在预设范围内的字符串为同一行,求解模板中的行和待测图像的行的最优匹配。
5.如权利要求2所述的一种文档图像关键信息提取方法,其特征在于:所述确定待测图像中与模板标注出的关键信息匹配的字符串,提取这些字符串作为最终关键信息提取的结果,具体为:
根据步骤S302和步骤S303所求出的行对应关系和两行中字符串的对应关系,确定待测图像与整张模板图像范围内的字符串对应关系;
定义模板中标注的关键信息周围的字符串为标志性字符串,在待测图像中找出与标志性字符串对应的字符串,确定待测图像的关键信息范围,输出关键信息。
6.如权利要求1所述的一种文档图像关键信息提取方法,其特征在于:所述对模板图像进行文字检测和识别,标注关键信息的位置,具体为:
调用已有的检测识别模型,获得文档图像中所有文字字段的内容和具体位置,之后根据位置信息对结果进行排序;
对3~10份模板图像进行标注,并作为训练集,通过算法对训练集数据生成模板和训练得到模型。
7.如权利要求6所述的一种文档图像关键信息提取方法,其特征在于:所述输入待提取关键信息的待测图像,对其进行文字检测和识别,具体为:输入待提取关键信息的待测图像,对其进行文字检测和识别,获得待测图像的文档数据,所述文档数据包括文字位置和文字内容。
8.如权利要求7所述的一种文档图像关键信息提取方法,其特征在于:所述利用关键信息提取算法提取待测图像的关键信息,具体为:将待测图像的文档数据输入模型,输出关键信息提取的结果。
9.一种文档图像关键信息提取系统,其特征在于:包括:
图像处理模块,用于对模板图像进行文字检测和识别,标注关键信息的位置;所述图像处理模块用于输入待提取关键信息的待测图像,对其进行文字检测和识别;
关键信息提取模块,用于利用关键信息提取算法提取待测图像的关键信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海兑观信息科技技术有限公司,未经上海兑观信息科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010051006.7/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置