一. Hadoop 1. 特性 Hadoop是Apache开源分布式计算平台. 擅长存储任意的,半结构化的数据,甚至非结构化的数据,用于存储大容量数据,支持在恰当时间存储和获取数据,并对大文件的存储,批量访问和流式访问做…
标签:hadoop
Hadoop-安装Hive
0. 基本环境说明 jdk版本: jdk1.7.0_80 hadoop版本: hadoop-2.6.1 hive版本: apache-hive-1.2.2-bin 1. 下载解压 #解压到指定的目录 tar xzvf a…
hadoop权威指南第四版中文PDF及源码
hadoop刚发布了3.1版本,但目前还没有配套的学习资料。如果要了解的话得上官网去学习。并且现在3.1版本官方并不推荐在生产环境使用。作为hadoop的入门书籍,从2.x版本开始也不失为良策。 本文带来的资源是hado…
Hive学习(CDH版Hadoop、Hive安装)
1、CDH简介 大家认知度比较高的Hadoop项目一般指的是Apache的Hadoop,但是该项目版本比较复杂,兼容性也很差,一般没法直接用于生产。所以针对这个情况,衍生了几个比较著名的第三方版本(CDH、HDP、Map…
在hadoop上运行python程序
在hadoop上运行python程序 准备文件 测试文件test.txt (/home/hadoop/input/test.txt) mapper.py (/home/hadoop/input/code/mapper.p…
Hive原理及SQL优化
1.Hive原理 Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。 通常来说,Hive只支持数据查询和加载,但后面的版本也支…
es导出hive遇到的问题汇总
首先直接上干货: 步骤 导入elasticsearch-hadoop-hive-5.5.2.jar包 创建hive外部表,数据源设置为es中,添加相应的配置 创建内部表拉取数据 add jar file:///home/…
Hive环境搭建及简单使用
前言: 上篇文章我们介绍了Hive源码编译的相关内容,本篇文章将主要介绍Hive环境的搭建步骤及简单使用。 1.下载安装包并解压 # 下载地址http://archive.cloudera.com/cdh5/cdh/5/…
连接hiveserver2-Hive用户配置
前几天初次接触Hive,需要连接hiveserver2进行一些操作,发现问题似乎并不是很简单,查了好多资料才解决了问题,特做记录。 操作之前做必要假设: 保证Hadoop(单机或者伪分布式模式)安装无误,运行Hadoop…
kettle 将mysql 导入到hive(借助Hadoop File Output组件)
背景 在使用kettle 的表输出组件的时候,因为服务器hive版本为0.13,不支持insert into values的语法(hive 的0.14版本才支持),所以通过表输出的方式,插入到hive会报错。 所以想了一…
Oozie:安装部署(hadoop集群)
一、将Oozie安装包上传到Master节点并解压 $ sudo tar -zxvf oozie-4.1.0-cdh5.14.0.ta…
大数据分析系列(一):使用R连接Hive
本文地址:http://www.jianshu.com/p/651fb104088c,转载请说明出处。 从事大数据方面的工作已经有一段时间了,对于Hadoop的各种组件也有了比较全面的了解,有幸也用R做过一些数据…