[发明专利]用于把来自多个数据源的著录项目数据存入数据库的方法和系统无效
申请号: | 200910176737.8 | 申请日: | 2009-09-18 |
公开(公告)号: | CN101676917A | 公开(公告)日: | 2010-03-24 |
发明(设计)人: | 杰森·怀特;阿萨德·阿巴斯 | 申请(专利权)人: | 英赛特半导体有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京信慧永光知识产权代理有限责任公司 | 代理人: | 梁兴龙;武玉琴 |
地址: | 加拿大*** | 国省代码: | 加拿大;CA |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 来自 数据源 著录 项目 数据 存入 数据库 方法 系统 | ||
技术领域
本发明涉及数据库管理系统,更具体地说,涉及用于把来自多个数据源的著录项目数据存入数据库的方法和系统。
背景技术
根据使用环境,有多种方法可以把关联数据存入数据库。可以通过用户界面一次输入一段数据,或者可以以自动的方式从一些其他数据源收集数据。在许多系统中,从几个数据源存入数据库,以其各自方式解释每一个数据源,然后把数据关联并添加到已经存在于数据库中的其他数据中。例如,基于例如预定源-数据库转换,可以获得特定源格式的源数据文件并直接将其转换为适用于数据库的格式。也就是说,如果已知特定源格式或模式(即,源数据结构),那么就可以根据预定的数据库格式或模式(即,目标数据结构)进行适当的转换,以便解释所获得的用于直接存入数据库的源数据。
当从包含有相同格式数据文件的单个数据源存入数据库时,处理过程可能比较简单。然而,当从提供不同格式(即,不同源模式)数据的不同数据源存入数据库时会出现问题。针对该问题的一种解决方案是:以每一数据源为基础,从数据源中选取未处理的数据,然后解释该数据,以便获得适合存入数据库的格式的数据。利用这种技术,需要单独的解释器来把来自每一个数据源的文件存入数据库;也就是说,为了根据目标模式直接转换并输入至数据库,需要设计一系列特定源解释器来解释根据特定源模式格式化的源数据。除了需要单独的解释器或者单独的解释协议以外,对于每一个数据源,这种方法还可能受到建立链接方面的限制,其中该链接是在来自不同数据源并因此通过不同解释器的文件之间存在的链接。当把来自多个数据源的复杂的相互关联的数据存入数据库时,会加剧这个问题。
一般来说,已知的多源数据库存入方法受限于其执行对直接相关数据库存入的特定源的解释。也就是说,大多数解决方案涉及特定源格式的源数据的直接特定源转换(即,由特定源数据结构或模式指示),以便根据最终数据库的数据结构直接存入数据库。例如,在“嗅觉感受器数据库:自基因蛋白质序列源的元数据驱动自动存入(Olfactory Receptor Database:a metadata-driven automated population from sources of gene and proteinsequences)”(354-360,Nucleic Acids Research,2002,Vol.30,No.1)中,从不同特定源格式的不同数据源下载数据。首先剖析下载的HTML文件,以提取出与数据库有关的信息。例如,如果HTML剖析程序识别出对于生物体小家鼠(Mus musculus)克隆嗅觉感受器序列,那么该程序会把字符串mus musculus与数据库的知识库进行匹配。该程序可以确定musmusculus符合生物体属性a30并且存储在数据库中作为对象o144。用XML line<a30object_name=‘mus musculus’>o144</a30>建立XML编码文档。这种XML编码文件包含有以与用于输入数据库的结构化数据库体系结构相适应的格式选取出的数据。利用这种复杂的方法,来自每一个不同数据源的文件必须以特定源的方式解释,以便基于与数据库的知识库内元素的关联或匹配来直接存储数据库。以下这种系统非常低效,例如通过查找与相同数据源文件内元素的匹配或关联的方式,试图直接解释从不同数据源访问的不同格式的数据。在以下参考文献中可以找到使用这种方法的其他例子:“Data Warehouse Population Platform”,Proceeding of the 5th International Workshop on the Design andManagement of Data Warehouses,2003;以及通过BMC B ioinformatics在线出版的Biozon:a System for Unification,Management and Analysis ofHeterogeneous Biological Data,2006。在后一参考文献中,假定从不同特定源模式到目标数据库模式的直接数据库存入转换存在一般缺陷,执行例如数据库存入后的清除/过滤,以减少已存入数据中的重复和矛盾,其中该参考文件提供了一种用于直接数据库存入的特定源数据转换的复杂方法,该方法能够识别复杂的来自不同数据源的数据之间的相互关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英赛特半导体有限公司,未经英赛特半导体有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910176737.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接口处理器
- 下一篇:研磨的硅烷化气相法二氧化硅