[发明专利]基于大数据的信息数据存储整合系统及方法有效
申请号: | 202011008763.2 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112100469B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 周勃;刘红霖;黄瀛;潘倩雯 | 申请(专利权)人: | 云宝宝大数据产业发展有限责任公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F40/194 |
代理公司: | 南宁东之智专利代理有限公司 45128 | 代理人: | 严涓逢 |
地址: | 530000 广西壮族自治区南宁市中国(广西)自*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 信息 存储 整合 系统 方法 | ||
1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;
所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档;
所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。
2.根据权利要求1所述的一种基于大数据的信息数据存储整合系统,其特征在于:所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云宝宝大数据产业发展有限责任公司,未经云宝宝大数据产业发展有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011008763.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熨烫机的清洗系统及其控制方法
- 下一篇:一种自发电下水道井盖
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置