[发明专利]一种数字化档案管理系统及方法在审
申请号: | 201910952433.X | 申请日: | 2019-10-09 |
公开(公告)号: | CN112633042A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 王其群 | 申请(专利权)人: | 苏州甲库档案信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/205;G06F40/30 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 李敏 |
地址: | 215168 江苏省苏州市吴中区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字化 档案管理系统 方法 | ||
1.一种数字化档案管理系统,其特征在于,所述系统包括:扫描装置、文本读取装置、数据上传装置、数据存储装置和数据修正装置;所述扫描装置与文本读取装置信号连接,用于扫描档案文本,将扫描到的档案文本发送至文本读取装置;所述文本读取装置,信号连接于数据上传装置,用于读取扫描到的档案文本中的文字内容,将读取到的文字内容转换为数字内容,将转换后的数字内容发送到数据上传装置;所述数据上传装置信号连接于数据存储装置,用于将数字内容上传到数据存储装置中;所述数据存储装置信号连接于数据修正装置,用于存储上传的档案的数字内容;所述数据修正装置,用于检测档案的数字内容中的错误内容,并针对该错误内容进行修正。
2.如权利要求1所述的系统,其特征在于,所述扫描装置包括:扫描镜、致动器和电源;所述电源分别与扫描镜和致动器连接,为扫描镜和致动器供电;所述扫描镜,用于扫描纸质档案的文本;所述致动器,用于移动所述纸质档案,以确保整个档案能被扫描镜完整扫描。
3.如权利要求2所述的系统,其特征在于,所述数据修正装置包括:文本获取模块,用于获取待修正的档案的数字内容;正确词获取模块,用于获取正确描述,所述正确描述用于替换所述档案的数字内容中与所述正确描述对应的错误内容;替换模块,用于根据所述正确描述找到并替换所述档案的数字内容中的所述错误内容。
4.如权利要求3所述的系统,其特征在于,根据所述正确描述找到并替换所述档案的数字内容中的所述错误内容,包括:对所述档案的数字内容进行分词,以将所述档案的数字内容切分为多个分词词语;将所述正确描述与每个分词词语组成词对;提取每个词对中正确描述与分词词语的相似度,所述相似度包括字形相似度、语义相似度及声学相似度;根据每个词对的相似度及预设的判定模型,获取每个词对为目标词对的概率,所述目标词对为词对中的分词词语是与所述正确描述对应的错误内容的词对;根据各词对的所述概率及预设算法,确定目标词对;使用所述正确描述在所述档案的数字内容中替换所述目标词对中的分词词语。
5.如权利要求4所述的系统,其特征在于,对所述档案的数字内容进行分词之后,将所述正确描述与每个分词词语组成词对之前,所述方法还包括:将分词后得到的相邻的两个单字组合成一个分词词语。
6.如权利要求5所述的系统,其特征在于,提取每个词对中正确描述与分词词语的字形相似度,包括:如果当前词对中的正确描述与分词词语的字数相同,则将正确描述与分词词语的每个单字均转换为四角编码,将正确描述与分词词语中各个相应单字的四角编码相同编码数与四角编码总编码数的比值的平均值作为字形相似度;如果当前词对中的正确描述与分词词语的字数不相同,则将使用动态规划算法获得的正确描述与分词词语的最小编辑距离作为字形相似度。
7.一种基于权利要求1至6之一所述系统的数字化档案管理方法,其特征在于,所述方法执行以下步骤:
步骤1:扫描档案文本,将扫描到的档案文本进行发送;
步骤2:读取扫描到的档案文本中的文字内容,将读取到的文字内容转换为数字内容,将转换后的数字内容进行上传;
步骤3:将数字内容上传后进行存储;
步骤4:存储上传的档案的数字内容;检测档案的数字内容中的错误内容,并针对该错误内容进行修正。
8.如权利要求7所述的方法,其特征在于,所述检测档案的数字内容中的错误内容,并针对该错误内容进行修正的方法包括:获取待修正的档案的数字内容;获取正确描述,所述正确描述用于替换所述档案的数字内容中与所述正确描述对应的错误内容;根据所述正确描述找到并替换所述档案的数字内容中的所述错误内容;其中,提取每个词对中正确描述与分词词语的语义相似度,包括:对当前词对中的正确描述与分词词语分别进行向量化以得到词向量;将正确描述与分词词语的词向量之间的距离作为语义相似度。
9.如权利要求8所述的方法,其特征在于,提取每个词对中正确描述与分词词语的声学相似度,包括:确定当前词对中的正确描述与分词词语在拼音字符转换距离表中的最小编辑距离路径;根据所述最小编辑距离路径上各个拼音字符的拼音字符转换距离获取正确描述与分词词语的拼音字符转换距离;根据所述正确描述与分词词语的拼音字符转换距离获取正确描述与分词词语的声学距离并将所述声学距离作为声学相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州甲库档案信息科技有限公司,未经苏州甲库档案信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910952433.X/1.html,转载请声明来源钻瓜专利网。