[发明专利]多格式文挡录入并比对的方法在审
申请号: | 201810549599.2 | 申请日: | 2013-12-18 |
公开(公告)号: | CN108984593A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 鞠非;华凯;顾梅;吴国奇;汤丹 | 申请(专利权)人: | 国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/00;G06K9/62 |
代理公司: | 常州市江海阳光知识产权代理有限公司 32214 | 代理人: | 陆文俊 |
地址: | 213003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种多格式文挡录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。 | ||
搜索关键词: | 文档 录入 比对 原始格式 文档库 纸质文档 多格式 文挡 电子文档 分词系统 关键属性 基础管理 前端设备 统一格式 文档管理 文档转换 相似程度 纸制文件 智能管理 自动扫描 算法 标注 数据库 关联 分类 统一 | ||
【主权项】:
1.一种多格式文挡录入并比对的方法,包括如下步骤:①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成;④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest Common Subsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;第一步,初始化数组LL()和P();LL(0)=0LL(i)=V 1≤i≤MP(i)=V 1≤i≤M此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1));F表示取最小值运算,将T的值赋给LL(1);此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止;不过要注意的是:第i条对角线只有m‑i+1个元素,所以只计算到LL(m‑i+1);如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了;然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同;A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i‑1,j‑1),若ai≠bj,则LD(i,j)=Min(LD(i‑1,j‑1),LD(i‑1,j),LD(i,j‑1))+1,最后计算得到LD(A,B)值;计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B));⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司,未经国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810549599.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图形数据库的数据处理系统、方法及装置
- 下一篇:呈现相关兴趣点