数据仓库相关术语

数据仓库架构

数据仓库DW

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。如:结构化数据库(oracle,db2,mysql,sybase,mssql,postagesql等) 。非结构化数据库(hbase,hadoop,hive等)。

数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

  1. 面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

  1. 集成的

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

  1. 相对稳定的

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

  1. 反映历史变化

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

业务操作数据存储ODS-operational data store

操作数据存储(ODS)的数据具有面向主题、集成的、可变的和数据是当前的或是接近当前的4个基本特征,它是介于数据源业务系统和数据仓库之间的一种数据存储技术,和原来面向应用的分散的数据源业务系统相比,ODS中的数据组织方式和数据仓库(DW)一样也是面向主题的和集成的。但ODS只是存放当前或接近当前的数据,且数据结构接近数据源业务系统。

数据整合ETL- Extract, transform, load

E(抽取),T(转换),L(装载)。ETL是数据处理过程的抽象概况,在数据仓库建设,数据中心建设和商业智能与分析等领域中是不可或缺的步骤。
抽取过程需要与源系统或数据源定义数据接口格式,如文件,数据库表,数据库视图,Webservice等,以及接口数据格式,如字段数,字段类型,字段长度等。在数据抽取之前应充分了解数据源数据质量,分析数据关联性。
转换过程是为消除数据源与目标库数据结构不一致而进行数据处理的过程。主要包括空值处理,表关联,表合并,表拆分,字段映射,格式转换,值映射,数据过滤,数据分发等。
装载并不是简单的插入操作,根据数据存储的需求需要制定相应的数据装载策略。主数据(描述主体的基本情况的数据)的策略应该是更新-插入策略,先更新出现变化的数据,再插入新增的数据。

数据暂存区SSA-system of staging area

数据暂存区是ETL数据加工的中间层,是介于数据源与目标数据集(数据仓库,数据集市,ODS)之间的位置。该区域的数据在ETL过程中被快速清空和装载,有助于提高ETL效率,提高容错性能,以及快速的问题定位与处理。

数据集市Data mart

数据集市是数据使用者获取数据仓库系统数据的接入和访问位置。数据集市是数据仓库的针对特定业务分析条线的子集。