[发明专利]基于进程粒度和打开文件集合的PASS起源信息收集方法无效
申请号: | 200810162528.3 | 申请日: | 2008-12-01 |
公开(公告)号: | CN101414305A | 公开(公告)日: | 2009-04-22 |
发明(设计)人: | 卜家俊;陈华;金涛;胡晨展;褚力行;蔡晖;张毅超;盛其彬;罗琰 | 申请(专利权)人: | 浙大网新科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州九洲专利事务所有限公司 | 代理人: | 陈继亮 |
地址: | 310007浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 进程 粒度 打开 文件 集合 pass 起源 信息 收集 方法 | ||
技术领域
本发明涉及感知起源系统的起源收集器领域,特别是一种基于进程粒度和打开文件集合的PASS起源信息收集方法。
背景技术
感知起源的存储系统(provenance-aware storage system PASS)是自动收集系统中对象起源信息的存储系统。起源信息是指,一个文件对象的完整历史数据,包括产生数据时的命令及参数,产生数据时系统的环境参数,操作系统的版本信息,对象之间的关系等等。用户通过一系列的指令产生了一个永久存在的对象,这里通常指的是文件对象,我们把对这些命令的描述和该对象与其他对象之间的关系定义为这个对象的起源信息。大多数的感知起源系统都是将起源信息保存在标准的数据库中,并将这些数据与他们相应的对象关联。
通过起源信息,从事科学研究的学者们可以了解一份数据的生成过程。当需要了解是什么进程产生了一份特殊的数据时,也可以通过起源信息确认出那个进程。还可以重新反复他们的试验,并保证在重新进行实验时,实验环境不会因为人为的因素发生意外的差错。因此在科学研究的工作流领域,起源信息是一个重要的概念。
感知起源的存储系统系统在内核层收集起源信息,感知起源的存储系统用户可以透明地使用文件系统而不需要关注感知起源的存储系统系统的细节。感知起源的存储系统在内存中收集起源信息时,首先是用链表将内存中的进程对象和文件对象收集起来,并保持文件与文件,文件与进程的关系。可是当对象之间的关系比较复杂的时候,会出现环。感知起源的存储系统系统采用的是先检测再消除的方法解决环的问题。算法的时间复杂度为0(N2),效率比较低,影响系统的整体性能。
感知起源的存储系统模型的收集器的采用的自动收集算法可以精确收集文件的起源信息,如文件和进程、文件和文件之间的关系。在内存中,感知起源的存储系统维护一张图,图中包括了文件与文件,文件与进程之间的关系,图的存储可以采用单向链表的数据结构。在图中,在每加入一个对象时,收集器都需要检测单向链表中是否有环,这需要O(N)的时间复杂度,在前面我们叙述过,这O(N)的复杂度对整个系统而言,实际上是O(N2)的时间复杂度,如果存在环,收集器还需要采用node-merging算法来消除图中的环。感知起源的存储系统中的收集器在内存中为文件和进程之间的关系维护着一张图,如果系统中运行的进程比较多,进程之间读写文件的关系比较复杂的话,这张图可能会很大,很复杂,很难维护。
发明内容
本发明的目的在于克服上述技术的缺陷,而提供一种基于进程粒度和打开文件集合的PASS起源信息收集方法,提高了收集起源信息的性能。
本发明的目的是通过以下技术方案来实现的。这种基于进程粒度和打开文件集合的PASS起源信息收集方法,感知起源系统(Provenance-Aware Storage System PASS)是自动收集系统中存储对象(如文件、设备等,申请书以下以文件为例)起源信息的存储系统。起源信息是指,一个文件对象的完整历史数据,包括产生数据时的命令及参数,产生数据时系统的环境参数,操作系统的版本信息,对象之间的关系等等。PASS系统在内核层收集起源信息,PASS用户可以透明地使用文件系统而不需要关注PASS系统的细节。
本发明采用基于进程粒度的PASS信息收集算法改进感知起源的存储系统的收集算法,对每一个进程进行跟踪,为每个进程维护三个文件集合:一个集合是被读文件的集合,一个集合是被写文件的集合,最后为被映射文件集合;当有文件被写时,我们将被读文件的集合中的文件统一记录为被写文件的前驱者,当有文件被映射时,将被读文件的集合中的文件统一记录为被写文件的前驱者。
采用基于进程粒度的PASS信息收集算法,其过程包括:
(1)通过修改操作系统、插入模块或者加入钩子等方法加入系统监控代码,监控进程创建(fork)和结束(exit)系统调用。
(2)通过修改操作系统、插入模块或者加入钩子等方法在操作系统的文件系统界面加入文件系统操作监控代码,监控文件open,read,write,mmap,close。
(3)当系统检测到进程创建时,在进程PCB或者其他内存管理区域中维护两个文件集合:被读文件集合,被写文件集合,被映射文件接合。
(4)当系统检测到文件打开时,如果为新创建文件,则:
a)将进程中的被读文件集合记录为此新创建文件的前驱者;
b)将进程信息记录于文件的起源信息中。
(5)当系统检测到文件读时,则:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大网新科技股份有限公司,未经浙大网新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810162528.3/2.html,转载请声明来源钻瓜专利网。