标签：数据

Kettle中ETL的效率优化

背景 Kettle是什么？ Kettle是一款开源的ETL工具，目前由Pentaho公司在管理。该工具包含一个可视化界面，可以用来设计、运行、调试ETL，被很多公司广泛采用。 Github 传送门 Community 传…

学hadoop需要什么基础？Hadoop作为大数据工业中的主引擎，Hadoop就像是大数据世的一把钥匙，想要进入数据世界，首先你得显得得到这把钥匙，才能打开大门。那么科多大数据带你来看看。学hadoop需要什么基础？H…

OpenStack 控制计算、存储和网络资源池。本文主要关注 OpenStack 如何在大数据用例中扮演关键角色。 OpenStack 上的大数据现在，数据随处生成，数据量呈指数增长。来自 Web 服务器、应用程序服务…

一、定义如果一个索引包含（或覆盖）所有查询的字段值，我们称之为覆盖索引。索引是一种查找数据的高效方式，但MySQL也可以使用索引直接获取列的数据，这样就不用读取数据的行。二、覆盖索引优势减少数据访问量和减少响应时…

什么是Hive： Hive是基于Hadoop之上的数据仓库，数据存放在HDFS上，它同样可以通过ETL来进行数据的抽取、转换和加载。同时Hive可以自己开发Mapreduce程序来完成本身不能提供的数据处理操作。Hive…

1. 什么是存储引擎关系数据表是用于存储和组织信息的数据结构，可以将表理解为由行和列组成的表格，类似于excel的电子表格的形式。有的表简单，有的表复杂，有的表根本…

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。 …

前言：实验楼上有10+条技术学习路径，对于想要系统入门该技术的小伙伴来说是非常不错的参考，详细的各路径，点击这里就可以查看了~ 文章主要把【大数据工程师】学习路径搬运到这里来，希望对广大想入门大数据的小伙伴来说有所帮助…

Hive 数据导入HBase的2种方法详解 – 王建奎Jerrick的个人页面 – 开源中国社区 https://my.oschina.net/wangjiankui/blog/497658 Hi…

分区 • 建立分区表 • 增加分区 • 重命名分区 • 删除分区 hive组织表到分区。它是将一个表到基于分区列，如日期，城市和部门的值相关方式。使用分区，很容易对数据进行部分查询。表或分区可以细分成桶，以提供额外的结…

概述 ETL是BI项目最重要的一个环节，通常情况下ETL会花掉整个项目的1/3的时间，ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程，只有不断的发现问题并解决问题，才能使ETL运行效率更高，为项目后期…

1. 副本集概述某些情况下，副本可以提供更高的读取容量，就像客户端可以发送读操作到不同的服务器。在不同数据中心维护数据副本可以增加分布式应用的数据局部性和可用性。还可以因为其它目的保存额外的副本，比如灾难恢复、报告或备…