[发明专利]用于将非结构化信息转换成内容的系统和方法无效

专利信息
申请号: 200710186754.0 申请日: 2007-11-16
公开(公告)号: CN101206670A 公开(公告)日: 2008-06-25
发明(设计)人: 肖恩·A·约翰逊;阿米沙·帕里克;安杰拉·F·里斯;拉维尚卡·萨思亚姆;克利福德·J·瓦斯第四;杰德·S·魏泽;安德森·E·沃尔夫 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市柳沈律师事务所 代理人: 黄小临
地址: 美国纽*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 结构 信息 转换 内容 系统 方法
【说明书】:

技术领域

本发明的实施例涉及使用联合服务和转换服务对非结构化信息和关联元数据进行提取、转换、和加载(ETL)。

背景技术

例如,在以下参考文献(1)Squire,C.,“Data Extraction and Transformationfor the Data Warehouse”,ACM Proceedings of Sigmod,Intl.Conference onManagement of Data,Vol.24,No.1,March 1,1995,p.446-447(下文中简称为“Squire”)(“用于数据仓库的数据提取和转换”,数据管理专业组的ACM学报,关于数据管理的国际会议,卷24,No.1,1995年3月1日,第446-447页)和(2)White,C.,“Managing Data Transformations”,BYTE,Vol.22,No.12,December 1,1997,p.53-54(下文中简称为“White”)(“管理数据转换”,BYTE,卷22,No.12,1997年12月1日,第53-54页)中,描述了起初存储在有关系的数据库中的结构化数据的提取、转换和加载。

如Kugel,R.在“Unstructured Information Management”,IntelligentEnterprise,December 2003(下文中简称为“Kugel”)(“非结构化信息管理”,Intelligent Enterprise,2003年12月)中所描述那样,结构化信息(也称作“已结构化数据”)可以描述为包括“按照特定属性简单分类的字母数字值...[包括诸如如下值]...名称、邮政编码、账户结余(account balance)、交易编号等”。根据Kugel,结构化信息仅构成企业信息的10-20%。

非结构化信息(也称作“未结构化数据”或“原始内容”或“内容”)包括所有企业信息的其它80-90%。非结构化信息可以描述为不具有由计算机简单可读的结构的计算机化信息。非结构化信息包括,例如二进制大目标(BLOB),诸如多媒体、电子邮件、备忘录、白纸等的。当今的复杂商业环境服从于日益增加的规范。顺从需求要求公司保留七年期间的文件和电子邮件,以防审计。尽管管理控制变得更加严格,但是竞争的运动场变得更加公平(leveled)。公司面临着更大的竞争,并且,因此,需要做出更快更优的消息灵通的决策以便维持成长。公司获得与其顾客数据的统一视图以便保持竞争力,同时提高生产率并降低成本是势在必行的。

非结构化信息可以存储在内容资料库中。可以把内容资料库描述为管理非结构化信息的存储的软件、固件、硬件、或其任意组合。

目前,有描述内容管理和联合的技术,诸如在2003年11月4日授予Dabney等人的美国专利US 6,643,663中、在2004年10月12日授予Hsiao等人的美国专利US6,804,674中、以及在2005年6月21日授予Emmick等人的美国专利US6,804,674中所描述的技术。也有描述内容转换的技术,诸如2006年3月21日授予Judd等人的美国专利US7,016,963。另外,有描述用于位于有关系的数据库中的结构化数据的ETL的技术,比如2006年5月23日授予Porter等人的美国专利US7,051,334。

此外,企业从统一的结构化和非结构化信息中获益。用于实现要求组合的数据类型的新应用的时间和努力应该最小化。根据Gilbert、Mark和Friedman、Ted“The New Data Integration Frontier:Unifying Structured andUnstructured Data”(“新数据一体化前沿:统一结构化和非结构化数据”),Garter,2006年3月31日(下文中的“Gilbert),如果普通的数据一体化(integration)基础结构在数据类型的领域(spectrum)上进行展开,那么在时间上的成本降低会很显著。

因此,在相关技术中,需要提取、转换和加载非结构化信息和关联元数据的技术。

发明内容

提供了一种用于把非结构化信息转换成统一上下文中的内容的方法、计算机程序产品、和系统。从一个或多个源内容资料库中提取非结构化信息和与非结构化信息关联的元数据。对非结构化信息和元数据中的至少一个进行一次或更多次的常规转换。被转换的、非结构化信息和元数据中的至少一个被加载到一个或多个目标内容资料库中。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710186754.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top