信息化管理平台
首页>信息系统集成

数据仓库应用的信息集成方案

数据仓库应用的信息集成方案

一、方案概述

数据仓库走向信息集成概述

 

数据仓库正在改变,改变以适应新的商务需求。当然,原来对数据存储的许多要求仍然存在,比如要能带来商业价值,要使数据简洁和前后一致,要可以对信息随意分块、切片和挖掘。对数据仓库的新的基本要求涉及数据的时效性和可扩展性,其目的在于使企业级用户在需要时可以得到当前的、远程的或非结构化的数据。所有 这些数据必须与用户过去通常通过数据仓库和数据中心提供的历史信息进行无缝集成。

 

这些要求是在过去几年中逐步显示出来的。IT 机构通常是通过创建运作数据存储 (ODS) 或干脆以更高的速度周期性地向数据仓库加载越来越多的数据,来满足对数据存储的新要求。然而,向数据仓库不断存入新的实时数据的方法成本很高,对大多数企业来说很不划算。而且有些数据(甚至可能是很重要的数据),由于它们的用法、大小或格式不适合于数据仓库或用户查询,因而不能或不需要保存在数据仓库中。 为了成功地满足这些需要,企业需要新的方法,不必首先将所有数据存入数据仓库就可以对信息进行集成和发送。这正是我们信息集成所要达到的目标。该目标旨在实现数据位置和格式对用户或应用程序的透明,使传统数据仓库的中央、本地访问与对远程数据的分布式访问可以统一在同一个基础架构内。

 

我们并不是要您舍弃您在数据仓库方面投入的所有设备和资金。实际上,从许多方面来说,信息集成都是您过去为建立和维护现有数据仓库所做努力的自然和合乎逻辑的延伸。

 

方案概述了数据仓库技术在过去 20 年里的发展历程。它向人们说明了为什么数据集成是数据仓库技术的基础,并进而阐述了为什么信息集成概念是数据仓库技术逻辑发展的必然结果。它还描述了对几 近实时的数据和在数据仓库中进行一定程度的读/写操作的不断增长的需要,如何迫使传统数据仓库架构发生了改变。

 

方案将集中分析信息集成在分布式访问方面的内容,描述了这一技术如何对数据在本地、在有所规定、有所控制的环境下进行直接访问,从而满足这些新的商务需要。

 

数据仓库-20年的发展趋势

 

当初企业需要数据仓库技术的原因是众所周知的。简单地说,就是利用数据仓库为最终用户提供可用和易懂的商业信息。虽然其中一些信息已经存在于企业的 IT 系统中,但显然还有巨量的原始数据在那里,并可以转换成有用的信息。

 

为满足这些商业需求,提出了被广为接受的三层数据架构。但是,为什么要把数据分为那么多层呢?这里有两个基本原因。第一是出于性能上的考虑。如果允许最终用户 的复杂查询运行于为其他目的而设计和优化的运作系统上,则这些查询可能会严重影响这些底层系统的性能。同时,最终用户查询的响应时间也可能很差。这便要求 数据架构至少要分二个层次,一个在本质上为运作层,另一个为信息层。

 

一、三层数据仓库

 

采用三层架构的第二个原因是使多个业务观点建立在统一的信息基础之上。由于其定义的时间和目的不同,各种运作系统看待 世界的观点也不同。比如,一个系统对"客户"的定义可能与另一个系统的不同。记录集可能相互重叠,记录明细可能不一致。为了提供一个一致、全面的业务观 点,首先要对基本运作系统数据进行协调,使之保持一致。这些经过协调一致的数据及其历史,以基本上标准化的形式存入商务数据仓库 (BDW) 中。虽然解决了一致性问题,但这些数据还不是企业需要的形式,也不具有查询的可操作性。数据架构的第三层,数据中心,要解决的就是此类问题。在这一层,经 过协调的数据被进一步转换为支持最终用户对不同业务观点的需要,并且可以简便快捷地查询的信息集。 这种三层数据架构付出的明显代价之一是,在数据到达运作系统和出现在数据中心之间,造成了相当长的延迟时间。这在以前对大多数公司来说并无大碍。实际上, 与过去常常要忍受的长达数周的数据协调时间框架相比,这种数据架构轻而易举就能实现的区区一天的时间延迟,会令许多公司窃喜不已。然而上世纪 90 年代出现的电子商务、客户关系管理 (CRM)、呼叫中心以及其他新事物都对延迟时间提出了更高要求,在某些情况下甚至要求降到一分钟以下。

 

二、操作数据存储(ODS)

 

象我们看到的,IT 机构通过在数据仓库中引入 ODS 和运作数据中心来应对了这一需要。对比只读性的 BDW 和传统数据中心,这些新组件的特点在于最终用户在其中既可以读数据,又可以更新数据。从架构上说,ODS 可以从两方面来看:或者作为在运作系统和 BDW 之间增加的一层,意味着所有数据都要通过 ODS;或者作为通向 BDW 的一个旁路, ODS 负责在运作系统与数据中心之间来回传递几近实时数据。这就需要一个并行处理接着对架构中不同层次的数据进行协调一致。然而,在该数据架构中引入双向、甚至循环数据流的做法可能在整个环境范围内引发数据一致性问题。

 

 

在数据仓库和非数据仓库项目中建立运作数据存储的做法,在过去几年里获得了加速发展。结果,这些项目的复杂程度因此大大增加,因为设计者在努力缩短层间数据移动延迟的同时,还要保证数据在高度复制环境下的完整性。

 

三、信息的完全集成

 

不断增长的对几近实时数据的访问和在过去被视为纯信息环境中进行读/写操作的需要并不是 IT 机构面临的唯一问题。人们对并合传统结构化数据和五花八门的非结构化数据的要求也在与日俱增。

 

非结构化数据,或者称为内容,多年来默默地处于数据仓库的视野之外。尽管据一些分析人士估计,这些非结构化数据约占数字化数据总量的 85%,它们却通常被存放在产权内容库或平面文件里,备受数据仓库用户和创建者冷落。虽然人们在通过检索系统链接这些数据方面做过一些尝试,但是与单纯为 结构化数据创建数据仓库所涉及的大量而复杂的工作相比,此类项目就显得微不足道了。 然而,情况在近几年里已有所改变。Internet 催生了大量以非结构化内容为主的巨型数据仓库。随着客户关系管理(CRM)的发展,企业已开始认识到将客户的交易活动(结构化数据)与其他诸如电话、传 真、电子邮件等互动活动(大多为非结构化数据)相联系的重要价值。文本说明、甚至图片和视频也成为潜在的数据来源,因为它们为传统交易数据提供了背景资 料。数据仓库已经慢慢地,但却是勿毋庸置地从传统的用户基础扩展到了企业的其他部分。

 

迄今为止,数据仓库技术供应商主要是通过对传统工具套件的扩展和提升来满足数据仓库的新要求。关系数据库已加入了对非结构化内容的支持。ETL 供应商在他们的工具套件中,增加了几近实时的支持,如个人记录处理、复制和消息排队支持等功能。

 

然而,可以推测,面对前面讲到的商务和技术方面的革命性需要,在现有数据架构内对产品功能进行的渐进式革新,也许是不够的。数据架构本身需要被重新审视和扩展。因此,现在该是跨入信息集成世界的时候了。

 

信息集成 - 数据仓库架构的扩展

 

信息集成的首要指导原则是:在用户看来,他们需要的所有数据,应该好像驻留在一个单一的数据源里一样。信息可能在不同的地方、以不同的语义、格式存储,访 问方法各异,因之对信息的检索也变得极为复杂。信息集成技术实质上将信息需求者屏蔽于所有这些复杂性之外。用户或代表用户的应用程序可以通过诸如 SQL 或 XML 的标准语言,或标准网络服务、内容应用程序界面(API),来对数据进行寻址。这样,用户就可以毫无隔碍地查看信息,而不用考虑其物理实现过程。

 

做到这一点可以有两种方法,或者其实是两种方法的结合。信息集成的两种主要方法是:(1) 通过数据联邦技术进行分布式数据访问,(2) 将数据移动到对应用程序更有效或更一致的位置,这种方法被称为数据合并或数据安排。分布式访问对应的是企业信息集成(EII)技术,而数据安排对应的是 ETL 和复制技术。合起来,这些功能构成了信息集成所需要的核心部分。用最简单的话来解释,这种技术在一个地方接受一个查询,然后对查询的相应部分进行分布,让 它们作用于数据,而不管数据位于何处、以何种形式构成。而数据放置则首先将位于不同地方的数据置于同一处,这样,对用户查询就不需要再进行分布了。两种方 法都需要广泛、基本相同的支持功能。

 

分布式访问和数据安排都需要底层映射、转换和高速缓存功能。另外,由于同样的数据,根据企业不同的需要,两种方法 都需要一套相同的转换和映射功能支持,以保持数据在整个企业的一致性。映射提供了理解不同数据片段之间关系的能力。转换通过对不同表述形式的数据进行转换 的功能,将相关数据通过映射进行合并。缓存提供了一个暂时的数据存储,该存储能够通过透明地存储一个结果集的拷贝来改善联邦技术的性能。

 

这些功能依赖于它们所处运作环境的细节描述。这种描述包括商业含义、关系、位 置、技术格式等等。简言之,就是元数据。一套全面而具有逻辑一致性的元数据集,不管它们是物化在单个物理存储器中,还是分布于多个存储器中,对信息集成技术来说都是不可或缺的基础。

 

二、方案介绍

 

当今的分层式数据架构是建立在下面的前提基础上的:某个最终用户的查询或报表所需的一切数据都应该集中到单个数据中心,或至少集中到使用 ETL 功能的单个数据仓库环境中。这样做是为了获得数据的稳定性和一致性,以及确保对数据的访问。

 

但如何使新的需要(更短的数据延迟、更少的非常用数据存储、对远程和多种数据源的访问)获得支持?答案显然是分布式查询方法。这种技术提供了在不事先对所有数据进行物理移动的情况下,保持单一数据仓库或数据中心逻辑特征的可能性。

 

 

灵活实时的数据访问

 

当企业需要结合已经存在于数据仓库中的传统的、历史的或分析的数据来访问具体的实时数据条目时,这种技术可以发挥重要作用。某个主要基于数据中心可提 供的历史的、合并处理过的数据的最终用户查询或报表,也需要一些最后一分钟的信息。在传统数据仓库架构中,这些实时数据必须(一般通过一个 ODS)不断地送入数据中心。这不仅要求数据中心存储大量的这类信息,而且要求 ETL 环境必须具有持续吞吐几近实时数据的能力。拥有这样的技术基础架构,机构也可以让运作应用程序轻易地访问数据仓库中的数据,并把数据和来自分布式源中的现有运作数据相结合,提供了重新利用数据仓库数据的额外可能性。

>返回
  • 成功案例