[发明专利]一种基于机器视觉的文本与内容识别分析方法在审
申请号: | 202110591900.8 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113449602A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 杨修一;陈杰;庞小红 | 申请(专利权)人: | 南京超募数字科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06F40/169 |
代理公司: | 南京磐泰合盛知识产权代理事务所(普通合伙) 32521 | 代理人: | 张浩 |
地址: | 210000 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 视觉 文本 内容 识别 分析 方法 | ||
1.一种基于机器视觉的文本与内容识别分析方法,其特征在于:包括如下步骤:
S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式;
S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本;
S3、先识别确定文本的整体结构,分析不同文本之间的关联性,再抓取文件中文本的名称和目录内容;
S4、然后按照目录对文本内容进行识别,先识别每个目录下的小标题,对文本结构进行补充;
S5、再根据尽职调查的需要和文本结构,快速定位至需要查找的位置,对重要内容进行识别分析;
S6、在重要文本内容识别分析过程中,识别到相同的文本内容时,将其他相同文本的位置标注在文本右侧;
S7、重要内容识别分析完成后,打印出重点内容分析报告;
S8、然后逐句对文本剩余内容进行识别分析,先识别提取数字和文字内容,最后识别图片内容;
S9、在文本内容全部分析完成后,打印整体分析报告。
2.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S1中,待识别的文件为图像文件,图像文件中的内容包括表格、文章和票据;
根据文本中文字记录的表格和票据,对其他含有表格和票据的文本进行查找,将表格名称和票据名称分别与文字记录的内容进行对比,将关联的票据文本和表格文本排放在对应文本后面;
关联表格和票据查找完成后,将票据与票据、表格与表格、表格与票据之间的内容进行对比分析,在对比后存在数据差异的位置进行框选标记;
所述S2中,知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事。
3.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S3中,在识别文本内容时,先通过机器视觉对文本内容进行扫描,对整个文本开始处的文本主题名称和文本目录进行识别,了解文档的大致内容,为后期查询做准备,然后识别文本中的目录,接着识别文本的重要内容,最后识别剩余内容;
在识别表格和票据时,先识别表格上方的表格名称,再识别表格的第一列和第一行的文本内容,确定表格整体结构,最后识别表格中剩余文本内容。
4.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S4中,确定需要查询的内容,然后选择对应的文件;
在对应的文本中,先对目录进行分析,确定需要查询的内容在文本中的页数,根据文本目录的指引找到对应的页数,先识别对应页数上的文本小标题,确定该页文本结构,对文本整体的结构进行补充,使文本结构更加完整。
5.根据权利要求4所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述文本小标题确定后,将需要查找的内容与小标题进行匹配,确定需要查找的内容具体位置,在对应的小标题下查找对应的文本内容;
在表格和票据识别时,对第一行和第一列文本内容识别后,确定需查找内容与第一行内容的对应位置,再确定需查找内容与第一列内容的对应位置,然后确定对应行列交叉位置的单元格,获取需要查找的内容。
6.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S6中,在文本内容识别分析过程中,对识别内容进行记忆,再次识别到相同的文本内容时,将上次识别的相同的文本位置标注在本次文本右侧,并将本次文本的位置标注至上次文本的右侧,出现多个相同文本内容时,全部相同文本位置均进行标注。
7.根据权利要求6所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述相同文本的认定标准通过用户自定义设置,设置的内容包括字数、段落数和数字,其中,字数大于等于30字,段落数大于等于1,数字的个数大于等于3;
在识别文本内容时,由人工设置相似文本的数值,文本相似程度达到设置值后,认定为相同的文本内容,然后对相同文本位置进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京超募数字科技有限公司,未经南京超募数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591900.8/1.html,转载请声明来源钻瓜专利网。