[发明专利]一种智能识别并生成电子合同的方法及系统在审
申请号: | 202011632874.0 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112749649A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 游牧 | 申请(专利权)人: | 武汉文楚智信科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/40;G06Q50/18 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 廉海涛 |
地址: | 430000 湖北省武汉市东湖新技术开发区高*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 识别 生成 电子 合同 方法 系统 | ||
1.一种智能识别并生成电子合同的方法,其特征在于,所述方法包括:
步骤1,获取多层PDF、单层PDF或图片格式的电子合同文档,对所述电子合同文档进行文本信息的识别;
步骤2,调用表单域识别算法对待填充区域进行标记;
步骤3,对所述待填充区域进行待签署区域的识别,将待填充字段分为待签署区域和基础数据区域;
步骤4,建立基础数据的数据库,调用所述数据库对所述基础数据区域进行批量填充后生成各个电子合同。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中获取的电子合同文档为多层PDF格式时,文本信息的识别的过程包括:调用PDF文本流操作接口,获取所有文字内容。
3.根据权利要求1所述的方法,其特征在于,所述步骤1中获取的电子合同文档为单层PDF或图片格式时,文本信息的识别的过程包括:
步骤101,对单层PDF或图片进行预处理,所述预处理包括去噪处理、红章识别处理以及角度调整中的一项或多项;
所述去噪处理的过程包括:获取单层PDF或图片的灰度直方图,根据所述灰度直方图检测出预设灰度值像素点成片状分布的部分并去除;
所述红章识别处理的过程包括:基于颜色和椭圆轮廓检测到所述单层PDF或图片包含红章时,对所述单层PDF或图片的红章轮廓内的区域进行白平衡处理,并去除红色分量;
所述角度调整的过程包括:对所述单层PDF或图片的内容进行直线识别,基于识别到的直线对所述所述单层PDF或图片进行角度调整;
步骤102,对预处理后的所述单层PDF或图片进行OCR图像识别,将图片信息转化为文本信息。
4.根据权利要求1所述的方法,其特征在于,所述步骤1之后还包括:调用自然语言处理算法,对所述文本信息进行分词处理。
5.根据权利要求4所述的方法,其特征在于,所述步骤2中基于敏感词汇和/或标记对待填充区域进行标记,所述敏感词汇根据经验设置;
所述标记包括:冒号、下划线以及空白区域。
6.根据权利要求4所述的方法,其特征在于,所述步骤3中基于设定词语进行待签署区域的识别,所述设定词语包括:签名、签章、签字或盖章。
7.根据权利要求4或5所述的方法,其特征在于,所述步骤2和步骤3中进行待填充区域的标记或待签署区域的识别的过程还包括:根据所述待填充区域或所述待签署区域之后是否包含空白区域对所述待填充区域或所述待签署区域进行校对。
8.根据权利要求1所述的方法,其特征在于,所述数据库的内容包括员工基础资料。
9.根据权利要求1所述的方法,其特征在于,所述步骤4之后还包括:
记录电子合同的类别和生成日期,设置各个类别的合同的时间期限,基于所述生成日期和对应的时间期限进行合同临期提醒。
10.一种智能识别并生成电子合同的系统,其特征在于,所述系统包括:文本信息识别模块、待填充区域标记模块、待签署区域识别模块和电子合同生成模块;
所述文本信息识别模块,用于获取多层PDF、单层PDF或图片格式的电子合同文档,对所述电子合同文档进行文本信息的识别;
所述待填充区域标记模块,用于调用表单域识别算法对待填充区域进行标记;
所述待签署区域识别模块,用于对所述待填充区域进行待签署区域的识别,将待填充字段分为待签署区域和基础数据区域;
所述电子合同生成模块,用于建立基础数据的数据库,调用所述数据库对所述基础数据区域进行批量填充后生成各个电子合同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉文楚智信科技有限公司,未经武汉文楚智信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011632874.0/1.html,转载请声明来源钻瓜专利网。