Hadoop生态圈 概述 Hadoop简介 什么是Apache hadoop? Apache Hadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件 Apache Hadoop 软件库是一个允许在集群计算…
标签:hadoop
CDH|Sqoop安装及配置
sqoop介绍 Sqoop:SQL-to-Hadoop 连接传统关系型数据库和Hadoop的桥梁 把关系型数据库的数据导入到Hadoop与其相关的系统(HBase和Hive)中 把数据从Hadoop系统里抽取并导出到关系…
Hive的安装部署及测试
![Uploading hive6_786401.png . . .] ](http://upload-images.jianshu.io/upload_images/3068725-de9d189c6ac9218c.p…
hive原理
什么是Hive? ** Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive…
Hive压缩与配置
优点 在Hadoop集群中,有大量的数据复制和移动操作,压缩过后可以减少文件的大小,从而可以减少磁盘和网络的I/O。 压缩格式 常见的有gzip、bzip2、lzo、snappy、lz4等压缩算法。一般来说,好的压缩算法…
大数据Hadoop、Hive及Spark的内在联系
学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。 1.…
hadoop+spark 伪分布式安装
基本环境及软件: 软件版本 软件包 centos-6.x JDK-1.8 jdk-8u112-linux-x64.tar.gz scala-2.11.8 jdk-8u112-linux-x64.tar.gz hadoop…
大数据工具Hadoop快速入门11-Oozie
Apache Oozie简介 Apache Oozie是Hadoop的工作流程调度程序。 它是一个运行从属作业工作流程的系统。 在这里,允许用户创建工作流的有向非循环图 ,可以在Hadoop中并行和顺序运行。 工作流引擎…
(一)HIVE基本概念原理
1、HIve的概念: 官方解释:Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在…
解决配置hive时出现不能加载自己修改的hive-site.xml等配置文件的问题。
配置hive时出现不能加载自己修改的hive-site.xml等配置文件的问题。发现它总是加载默认的配置文件。 解决: hadoop的配置文件hadoop-env.sh中加上export HADOOP_CLASSPATH…
Apache Ranger安装配置以及和LDAP集成
导语 Ranger是Hadoop平台的集中式安全管理框架,能够为hadoop平台组件提供细粒度的访问控制。通过Ranger, Hadoop管理员能够轻松地管理各种安全策略,包括:访问文件/文件夹,数据库,Hive表,列,…
hive insert overwrite hdfs(hive输出结果导出到hdfs) 错误
近日将原来MR 处理到etl 部分转移到Hive Serde 处理导出到HDFS的时候,Hive导出过程出错caused by: java.io.IOException: Cannot get DistCp constr…