[发明专利]基于大数据的信息数据存储整合系统及方法有效

专利信息
申请号: 202011008763.2 申请日: 2020-09-23
公开(公告)号: CN112100469B 公开(公告)日: 2021-07-27
发明(设计)人: 周勃;刘红霖;黄瀛;潘倩雯 申请(专利权)人: 云宝宝大数据产业发展有限责任公司
主分类号: G06F16/93 分类号: G06F16/93;G06F40/194
代理公司: 南宁东之智专利代理有限公司 45128 代理人: 严涓逢
地址: 530000 广西壮族自治区南宁市中国(广西)自*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 信息 存储 整合 系统 方法
【权利要求书】:

1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;

所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档;

所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。

2.根据权利要求1所述的一种基于大数据的信息数据存储整合系统,其特征在于:所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云宝宝大数据产业发展有限责任公司,未经云宝宝大数据产业发展有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011008763.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top