[发明专利]一种互联网开源软件数据动态索引和存储的方法在审
申请号: | 202111232572.9 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113961785A | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 朱家鑫;陈伟;吴国全;窦文生;魏峻;叶丹 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;H04L9/40;H04L67/06 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 软件 数据 动态 索引 存储 方法 | ||
本发明公开一种互联网开源软件数据动态索引和存储的方法,涉及开源软件数据领域,针对互联网开源软件数据创建数据项,每个数据项由一个或多个数据单元组成,并添加如下数据描述:数据源HTTP链接、时效信息和身份认证信息;进行数据项的初始化操作;当收到数据项下载请求时,验证数据源的可访问性和估算数据规模,然后将下载的数据发送给请求方,标记数据状态;根据时效信息确定是否逾期,对于逾期的进行重新可访问性验证和估算数据规模,将下载的数据发送给请求方,更新数据状态;根据请求计数周期内的计数结果更新数据项的数据状态。本发明实现互联网开源软件数据的快速按需获取和较少的本地存储空间要求,提高存储利用率。
技术领域
本发明涉及开源软件数据领域,尤其涉及一种互联网开源软件数据动态索引和存储的方法。
背景技术
本发明所涉及的互联网开源软件数据是开源软件开发、运维过程中由相关支撑工具产生的各类数据,例如版本控制数据、缺陷追踪数据等。这些数据可以用来开展很多软件工程相关的研究,帮助提供软件开发运维的效率,以及软件产品的质量。
当前,互联网上的开源软件项目的数量呈现爆发式的增长,互联网开源软件数据在不断产生和积累。从软件工程的研究文献中可以看出,互联网开源软件数据使用的需求十分多样且在不断地变化,不同的数据使用者关注的开源项目和数据类型乃至更具体的数据范围不尽相同,大量数据的访问和下载代价也应当尽量减小,这些都是数据服务所面临的挑战。
目前,以zenodo(https://zenodo.org/)为代表的数据集共享平台包含了一些开源软件数据集。然而,他们都是用户手工上传的一些较小范围内的静态数据集,没有针对全网数据的多样、海量、持续更新等特性给出解决方案,无法提供全面、高效的按需数据服务。
发明内容
本发明的目的是提出一种互联网开源软件数据动态索引和存储的方法,实现互联网开源软件数据的快速按需获取和较少的本地存储空间要求,提高存储利用率。
本发明实现上述目的所采用的技术方案如下:
一种互联网开源软件数据动态索引和存储的方法,包括以下步骤:
针对互联网开源软件数据创建数据项,每个数据项由一个或多个数据单元组成,并添加如下数据描述:数据源HTTP链接、时效信息和身份认证信息,其中,数据源是数据项中数据单元的下载来源,时效信息是指数据下载存储后的有效期限,身份认证信息为访问数据单元时所需的用户名和密码,或者表示有效身份的字符串(Token),一个数据项中所有数据单元共用相同的认证信息,如不需要则为空;
进行数据项的初始化操作:进行数据源可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,并估算数据规模,根据数据源可访问性验证结果标记数据状态;
当收到数据项下载请求时,进行数据源的可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,估算数据规模,然后将下载的数据发送给请求方,根据数据源可访问性验证结果标记数据状态;根据数据项的数据状态检查数据项时效信息,如果下载时间已经超过时效信息,则更新数据状态,删除本地的已下载数据后重新进行数据源的可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,估算数据规模,然后将下载的数据发送给请求方,并更新数据项的数据状态;
根据请求计数周期内的计数结果更新数据项的数据状态。
进一步地,进行数据源可访问性验证的方法为:随机选取一定数量的数据单元,根据数据单元下载地址发起HTTP请求,HTTP请求中带有必要的认证信息,如果对任意一个数据单元的访问得到状态码为200的响应,则认为数据源可访问;如果对任何一个数据单元都的访问都没有得到状态码为200的响应,则认为数据源不可访问。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111232572.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置