3.数据仓库之确定粒度

在数据仓库的开发过程中,确定数据仓库中的数据的粒度是至关重要的,翻阅了很多书籍,对粒度的描述都过于笼统,百度百科对数据粒度的定义:

数据粒度,是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。分析了数据仓库中的粒度模型,在此基础上提出了一种估计数据仓库大小的方法。

看完这段描述,估计也是云里雾里的,晦涩难懂!!

在设计数据仓库的时候,通常都会对数据仓库进行分层,分层的好处很多,比如通过分层可以实现业务之间的解耦,上层不必关心下层的具体处理逻辑。其次,通过数据分层更好的管理数据仓库。在数据仓库的分层设计中,最底层的数据通常都被要求满足数据的最细粒度,满足业务的各种组合查询和维度层次的统计。那么这里最低数据粒度是什么呢?

数据粒度可以理解为:在同一维度下,数据的粗细程度。最小粒度是指,根据业务需求,确定当前数据的不可分割的程度。可以明确的知道数据的粒度是根据数据的维度来的。以下举例说明,在设计数据仓库中的数据维度确定。

  • 我们要分析用户的购物和时间维度的关系。从时间维度来说,用户下单时间最细粒度精确到分钟,那么我们可以统计出一分钟有多少用户下单,由此可知系统一分钟的最大并发数量。由于最低粒度是分钟,我们可以在此基础上进行维度上钻,可以统计出一小时,一天,一个月等不同时间维度上用户的购物数量。
  • 上面分析用户购物和时间维度的关系。下面我们确定下用户购物的区域维度,分析出不同区域的用户购物数量。在区域维度的最细粒度上面,我们精确到县级城市。那么县级城市就是在区域维度上面的最小粒度。在县级这个最小粒度的基础上,我们可以上钻到市,省,大区等。
    原文作者:韭菜炒鸡蛋2021
    原文地址: https://blog.csdn.net/u014730165/article/details/82733355
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞