[发明专利]一种基于人工智能的高校招生数据采集方法及系统有效
申请号: | 201910213285.X | 申请日: | 2019-03-20 |
公开(公告)号: | CN109960707B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 耿忠诚 | 申请(专利权)人: | 上海亿阁信息科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06V30/148;G06F11/10;G06Q50/20 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 201900 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 高校 招生 数据 采集 方法 系统 | ||
1.一种基于人工智能的高校招生数据采集方法,其特征在于,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;
所述智能识别过程包括以下步骤:
步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;
步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;
步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化;步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签;
步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;
若其页数或条数有异常,则系统报警,将有异常的页面,返回步骤3,重新进行OCR识别、导入;
若没有异常的则进入下一步骤;
步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;步骤6中所述完整标签化的算法具体包括:
601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;
6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警;
步骤7:校对:
a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则输入校对结果;
b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则输入校对结果;
c:是否有系统报警的内容,若有,则输入校对结果;
d:是否有多余的信息,若有,则删除多余的信息;
步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;
所述智能纠错过程包括以下步骤:
S001:建立“招生院校名称标准数据库”;
S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警;
S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;
S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警;
S009:对系统报警的内容进行判断、校对,并将数据输入系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海亿阁信息科技有限公司,未经上海亿阁信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910213285.X/1.html,转载请声明来源钻瓜专利网。