[发明专利]一种基于人工智能的高校招生数据采集方法及系统有效

专利信息
申请号: 201910213285.X 申请日: 2019-03-20
公开(公告)号: CN109960707B 公开(公告)日: 2023-06-20
发明(设计)人: 耿忠诚 申请(专利权)人: 上海亿阁信息科技有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06V30/148;G06F11/10;G06Q50/20
代理公司: 北京科家知识产权代理事务所(普通合伙) 11427 代理人: 陈娟
地址: 201900 上海市宝山*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 人工智能 高校 招生 数据 采集 方法 系统
【权利要求书】:

1.一种基于人工智能的高校招生数据采集方法,其特征在于,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;

所述智能识别过程包括以下步骤:

步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;

步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;

步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;

步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化;步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签;

步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;

若其页数或条数有异常,则系统报警,将有异常的页面,返回步骤3,重新进行OCR识别、导入;

若没有异常的则进入下一步骤;

步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;步骤6中所述完整标签化的算法具体包括:

601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;

602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;

603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;

6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;

6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警;

步骤7:校对:

a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则输入校对结果;

b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则输入校对结果;

c:是否有系统报警的内容,若有,则输入校对结果;

d:是否有多余的信息,若有,则删除多余的信息;

步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;

步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;

所述智能纠错过程包括以下步骤:

S001:建立“招生院校名称标准数据库”;

S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;

S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;

S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;

S005:建立DCS数据系统中“计划”数据之间的逻辑关系;

S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警;

S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;

S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警;

S009:对系统报警的内容进行判断、校对,并将数据输入系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海亿阁信息科技有限公司,未经上海亿阁信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910213285.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top