[发明专利]一种基于机器视觉的文本与内容识别分析方法在审

专利信息
申请号: 202110591900.8 申请日: 2021-05-28
公开(公告)号: CN113449602A 公开(公告)日: 2021-09-28
发明(设计)人: 杨修一;陈杰;庞小红 申请(专利权)人: 南京超募数字科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06F40/169
代理公司: 南京磐泰合盛知识产权代理事务所(普通合伙) 32521 代理人: 张浩
地址: 210000 江苏省南京市建邺*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 视觉 文本 内容 识别 分析 方法
【权利要求书】:

1.一种基于机器视觉的文本与内容识别分析方法,其特征在于:包括如下步骤:

S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式;

S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本;

S3、先识别确定文本的整体结构,分析不同文本之间的关联性,再抓取文件中文本的名称和目录内容;

S4、然后按照目录对文本内容进行识别,先识别每个目录下的小标题,对文本结构进行补充;

S5、再根据尽职调查的需要和文本结构,快速定位至需要查找的位置,对重要内容进行识别分析;

S6、在重要文本内容识别分析过程中,识别到相同的文本内容时,将其他相同文本的位置标注在文本右侧;

S7、重要内容识别分析完成后,打印出重点内容分析报告;

S8、然后逐句对文本剩余内容进行识别分析,先识别提取数字和文字内容,最后识别图片内容;

S9、在文本内容全部分析完成后,打印整体分析报告。

2.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S1中,待识别的文件为图像文件,图像文件中的内容包括表格、文章和票据;

根据文本中文字记录的表格和票据,对其他含有表格和票据的文本进行查找,将表格名称和票据名称分别与文字记录的内容进行对比,将关联的票据文本和表格文本排放在对应文本后面;

关联表格和票据查找完成后,将票据与票据、表格与表格、表格与票据之间的内容进行对比分析,在对比后存在数据差异的位置进行框选标记;

所述S2中,知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事。

3.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S3中,在识别文本内容时,先通过机器视觉对文本内容进行扫描,对整个文本开始处的文本主题名称和文本目录进行识别,了解文档的大致内容,为后期查询做准备,然后识别文本中的目录,接着识别文本的重要内容,最后识别剩余内容;

在识别表格和票据时,先识别表格上方的表格名称,再识别表格的第一列和第一行的文本内容,确定表格整体结构,最后识别表格中剩余文本内容。

4.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S4中,确定需要查询的内容,然后选择对应的文件;

在对应的文本中,先对目录进行分析,确定需要查询的内容在文本中的页数,根据文本目录的指引找到对应的页数,先识别对应页数上的文本小标题,确定该页文本结构,对文本整体的结构进行补充,使文本结构更加完整。

5.根据权利要求4所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述文本小标题确定后,将需要查找的内容与小标题进行匹配,确定需要查找的内容具体位置,在对应的小标题下查找对应的文本内容;

在表格和票据识别时,对第一行和第一列文本内容识别后,确定需查找内容与第一行内容的对应位置,再确定需查找内容与第一列内容的对应位置,然后确定对应行列交叉位置的单元格,获取需要查找的内容。

6.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S6中,在文本内容识别分析过程中,对识别内容进行记忆,再次识别到相同的文本内容时,将上次识别的相同的文本位置标注在本次文本右侧,并将本次文本的位置标注至上次文本的右侧,出现多个相同文本内容时,全部相同文本位置均进行标注。

7.根据权利要求6所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述相同文本的认定标准通过用户自定义设置,设置的内容包括字数、段落数和数字,其中,字数大于等于30字,段落数大于等于1,数字的个数大于等于3;

在识别文本内容时,由人工设置相似文本的数值,文本相似程度达到设置值后,认定为相同的文本内容,然后对相同文本位置进行标注。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京超募数字科技有限公司,未经南京超募数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110591900.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top