[发明专利]一种基于人工智能的高校招生数据采集方法及系统有效
申请号: | 201910213285.X | 申请日: | 2019-03-20 |
公开(公告)号: | CN109960707B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 耿忠诚 | 申请(专利权)人: | 上海亿阁信息科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06V30/148;G06F11/10;G06Q50/20 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 陈娟 |
地址: | 201900 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于人工智能的高校招生数据采集方法及系统,涉及人工智能技术领域。本发明包括智能识别、智能纠错的过程,依次按上述过程进行数据处理和运算,采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,对高校招生数据进行深度挖掘和分析,智能识别的过程,通过OCR识别模块、人工校对模块、数据入库模块来实现;智能纠错的过程,通过智能纠错模块来实现。本发明通过智能识别的过程,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率;通过智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。 | ||
搜索关键词: | 一种 基于 人工智能 高校 招生 数据 采集 方法 系统 | ||
【主权项】:
1.一种基于人工智能的高校招生数据采集方法,其特征在于,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;所述智能识别过程包括以下步骤:步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化;步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;若其页数或条数有异常,则系统报警,将有异常的页面,返回步骤3,重新进行OCR识别、导入;若没有异常的则进入下一步骤;步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;步骤7:校对:a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则输入校对结果;b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则输入校对结果;c:是否有系统报警的内容,若有,则输入校对结果;d:是否有多余的信息,若有,则删除多余的信息;步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;所述智能纠错过程包括以下步骤:S001:建立“招生院校名称标准数据库”;S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;S005:建立DCS数据系统中“计划”数据之间的逻辑关系;S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警;S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警;S009:对系统报警的内容进行判断、校对,并将数据输入系统。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海亿阁信息科技有限公司,未经上海亿阁信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910213285.X/,转载请声明来源钻瓜专利网。