1. 说明 搭建过Hadoop集群的小伙伴一定知道,如果不用docker,半小时配好Hadoop+Mysql+Hive(后简称Hive)肯定是胡吹,有了Docker镜像,没有说明文档,配好了也不一定会用。本文将介绍如何…
标签:hadoop
通过hadoop distcp进行集群间数据迁移
问题描述 我所在的部门是BI,平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面,最近开始经常出问题,并且计算变慢。为了进行热备,决定把A集群的计算迁到B上一份,新抽取的数据可以在A和B…
Hadoop三大发行版本
Apache 企业实际使用并不多。最原始(基础)版本。这是学习hadoop的基础。 cloudera 对hadoop的升级,打包,开发了很多框架。flume、hue、impala都是这个公司开发 2008 年成立的 Cl…
从一次跑数中浅析hadoop和spark-hive基本操作和优化
文/michaelgbw 最近遇到一个跑数需求 首先我想说之前php做的还是做服务多一点,数据的话我也只是做展示开发的工作,所以这篇文章有什么不妥,错误欢迎大家指正. 其实是最近才开始使用PHP来操作hadoop的,大家…
hive入门简介
一、前言 Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。 二、什么…
Spark on Yarn 部署中出现的问题
版本: spark 2.3.0 hadoop : cdh 5.14.2-2.6.0 配置情况: spark-env.sh HADOOP_CONF_DIR=/etc/hadoop/conf YARN_CONF_DIR=/e…
janusgraph gremlin-hadoop spark on yarn数据导入
基于apache hadoop的配置安装 安装相关的大数据组件,包括: hadoop 2.6.2 spark 1.6.1 hbase 1.0.0 zookeeper 3.4.10 janusgraph 0.2.0 环境变…
搭建Spark集群(一)——使用VirtualBox建立虚拟机
环境准备 一台主机(看个人的配置,当然配置越高性能越好,我自己的是i5+16G+1TB 64位 windows7系统) CentOS 7.0安装文件 hadoop-2.6.0.tar.gz、scala-2.10.5.tg…
Spark 基础(上篇)
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架,但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架,在…
20个Spark实战项目列表
前言: Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次…
Spark系列--OutputFormat 详解
前言 本文主要内容 什么是OutputFormat及其运行机制? 如何自定义自己的OutputFormat? 实战自定义mysql OutputFormat。 一丶什么是OutputFormat? 定义了 spark 的…
Hadoop Hbase Spark 配置文档详解
hadoop 1.core-site.xml 1.fs.defaultFS hdfs默认端口 2.hadoop.tmp.dir Hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的…