数据仓库概述

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库 ,由数据仓库之父比尔·恩门(BillInmon)于1990年提出,
主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,
并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

数据仓库特点:数据处理,屏蔽源系统和应用的变更

  1. 面向主题的
  2. 集成的。 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
  3. 相对稳定的
  4. 反应历史变化的—不做删除和修改

ODS (操作数据存储)

操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分
具备如下特点:

1.面向主题的
2.集成的
3.当前或接近当前的
4.不断变化的

三范式建模:分层,大宽表,拉链,可以left join
星型结构建模:面向集市的,将事实和维度拆开,构成维度事实表。

建模流程:
CDM(概念模型)–>LDM(逻辑模型)–>PDM(物理模型)

单元测试:根据源系统逻辑,手动编写sql,和集市或者汇总层的数据进行对比。其实单元测试并不难,只是需要与业务知识取数逻辑相结合。常用的sql就是 distinct,group by,order by。
另外在测试过程中需要进行sql优化,提高效率

调度工具:作业流管理,作业调度,作业监控

数据建模方法:
维度建模
三范式建模

参考资料:

  1. 数据仓库
    原文作者:SportCloud
    原文地址: https://segmentfault.com/a/1190000012279260
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞