[发明专利]一种对文本信息进行结构化处理的方法在审
申请号: | 201610391024.3 | 申请日: | 2016-06-03 |
公开(公告)号: | CN107463537A | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 谌良 | 申请(专利权)人: | 北京新唐思创教育科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京中知法苑知识产权代理事务所(普通合伙)11226 | 代理人: | 常玉明,张兰海 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 进行 结构 处理 方法 | ||
所属技术领域
本发明涉及信息提取领域,尤其涉及一种利用正则表达式进行文本结构化、实现快速录入和智能排版的文本信息提取方法。
背景技术
随着计算机、互联网技术的进步,计算机辅助教学得到了飞速发展,计算机辅助教学的一个很重要的方面就是电子试题库,电子试题库内存储有大量的电子试题。而在学校、企业内部有大量的基于文本或图片等形式的试卷存在,如何将大量的试卷信息进行识别,是电子试题库建设中的一个关键步骤,也是计算机辅助教学中一个重要的研究课题。
文本格式的试卷信息进行识别的一大难点是试题文件的非结构化,无法执行数据文档的结构化录入,难以通过计算机进行自动录入。对于非结构化试题通常采用人工进行录入,即一道一道试题的录入,需要选择题目的类型,需要录入题干和多个选项等信息。人工录入试题存在录入速度慢、容易出错等问题,难以实现快速录入。
目前,批量导入试题的方案已有多种,如申请号为CN201010121907.5的中国专利申请公开了一种WORD格式试卷自动导入数据库系统的方法,该专利申请公开的导入过程包括:编辑WORD格式试卷,对试卷按照一定的规则进行标注;所述标注包括:在试卷中的题型号、大题号、小题号前使用分割符号进行标注;然后根据标注将WORD格式试卷分成多个新文档,每个新文档的内容为一道题,并对这些新文档重新命名并保存;根据试题之间的分割符号读出整个WORD试卷所有段数,然后循环扫描所有段,把读出的题型号、大题号、小题号、每道题对应的新文档分别解析到数据库中;在数据库中对不同的大题号和小题号加注辅助信息。
又如申请号为201410126266.0中国专利申请公开了一种电子试卷的导入方法,该专利申请公开的导入方法包括:S1.获取电子试卷的文本,并进行冗余处理;S2.区分出经冗余处理后的电子试卷的试卷头和试题部分;S3.当识别试卷头时,将识别到的首行字符串标示为标题,将其余信息标示为介绍信息,并将所述标题和介绍信息分别存入对象树的试卷类中;S4.当识别试题部分时,通过查找所述试题部分的文本的关键字段,将所述试题部分的文本划分为若干道试题;S5.通过查找所述若干道试题中的每一题的关键字段识别出每一题的题型、题干和选项信息,并将所述每一题的题型、题干和选项信息分别存入对象树的试题类中;S6.通过所述对象树展示所述电子试卷的预览信息,完成所述电子试卷的自动导入。
上述申请案均实现了批量录入试卷内容,比传统的手工录入有了很大进步。但是,现有的录入方法对录入试题的类型存在很大的限制,仍需进一步改进,例如完形填空题,现有技术并未给出如何录入的启示。
发明内容
本发明旨在提供一种对文本信息进行结构化处理的方法,以解决无法将文本文档实现结构化及快速录入的问题。
在本发明的实施例中,提供了一种对文本信息进行结构化处理的方法,包括:
1)获得所述文本信息的内容;
2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式;
3)采用所述正则表达式匹配模式对所述文本信息的所述内容进行结构化处理,获得结构化的文本信息。
进一步地,步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:通过手动选择调用相应的正则表达式匹配模式。
进一步地,通过手动选择调用相应的正则表达式匹配模式包括:根据所述文本信息的所述内容手动选择所述文本信息的所述内容的类型,根据所述类型调用相应的正则表达式匹配模式。
进一步地,手动选择所述文本信息的所述内容的类型包括:在操作界面上设置多个所述类型的按钮,用户点击“完形填空题”按钮时调用“完形填空题选项正则表达式匹配模式”,用户点击“单选题”、“多选题”,或“多选多题”时调用“通用选项正则表达式匹配模式”。
进一步地,所述类型包括完形填空题、单选题、多选题、或多选多题。
进一步地,步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:自动识别所述文本信息的所述内容,根据识别的结果调用相应的正则表达式匹配模式。
进一步地,自动识别所述文本信息的所述内容包括:自动识别出所述文本信息的所述内容的类型。
进一步地,自动识别出所述文本信息的所述内容的类型包括:识别出第一个选项标识符后检验所述第一个选项标识符之前的字符串是否符合数字型标识符的规则,如符合则识别出所述文本信息的所述内容的类型为完形填空题,如不符合则识别出所述文本信息的所述内容的类型为为普通题目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新唐思创教育科技有限公司,未经北京新唐思创教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610391024.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置