[发明专利]一种历史文献数字化方法、系统、装置及存储介质在审

申请号：	202110140387.0	申请日：	2021-02-02
公开（公告）号：	CN112836073A	公开（公告）日：	2021-05-25
发明（设计）人：	刘越畅	申请（专利权）人：	嘉应学院
主分类号：	G06F16/51	分类号：	G06F16/51;G06F16/58;G06F16/583;G06K9/00;G06K9/34
代理公司：	深圳市创富知识产权代理有限公司 44367	代理人：	叶灿才
地址：	514015 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种历史文献数字化方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种历史文献数字化方法，其特征在于，包括以下步骤：

获取平台文献资料，得到打包压缩文件；

对打包压缩文件进行解压和格式转换，得到预处理后图像；

对预处理后图像进行OCR识别和文字整合，得到整合后数据；

创建数据库并将整合后数据存入数据库。

2.根据权利要求1所述一种历史文献数字化方法，其特征在于，还包括：

对整合后数据进行识别校正。

3.根据权利要求2所述一种历史文献数字化方法，其特征在于，所述获取平台文献资料，得到打包压缩文件这一步骤，其具体包括：

基于平台获取文献资料的文件包；

对文件包进行分析，构建得到文件树结构图；

对文件包和文件树结构图进行压缩，得到打包压缩文件。

4.根据权利要求3所述一种历史文献数字化方法，其特征在于，所述对打包压缩文件进行解压和格式转换，得到预处理后图像这一步骤，其具体包括：

对打包压缩文件解压到对应的文件目录下，得到全部PDF文件；

将PDF文件转换为base64格式，得到base64格式的图像。

5.根据权利要求4所述一种历史文献数字化方法，其特征在于，所述对预处理后图像进行OCR识别和文字整合，得到整合后数据这一步骤，其具体包括：

基于OCR识别算法对base64格式的图像进行识别，得到文字数据；

根据文字数据取得书名、作者信息、出版时间、目录和正文内容；

按预设规则对文字数据整合，得到整合后数据。

6.根据权利要求5所述一种历史文献数字化方法，其特征在于，所述按预设规则对文字数据整合，得到整合后数据这一步骤，其具体包括：

选择一图一页规则，以一张图片作为一页对数据进行整合处理，将图片计数，得到整合后数据；

选择一图两页规则，将一张图片分割为两页对数据进行分页处理，得到整合后数据。

7.一种历史文献数字化系统，其特征在于，包括：

数据获取模块，用于获取平台文献资料，得到打包压缩文件；

图像预处理模块，用于对打包压缩文件进行解压和格式转换，得到预处理后图像；

内容识别模块，用于对预处理后图像进行OCR识别和文字整合，得到整合后数据；

存入数据库模块，用于创建数据库并将整合后数据存入数据库。

8.一种历史文献数字化装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述一种历史文献数字化方法。

9.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述一种历史文献数字化方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于嘉应学院，未经嘉应学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110140387.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载