标签：hadoop

半小时搞定Hadoop+Mysql+Hive+Python

1. 说明搭建过Hadoop集群的小伙伴一定知道，如果不用docker，半小时配好Hadoop+Mysql+Hive（后简称Hive）肯定是胡吹，有了Docker镜像，没有说明文档，配好了也不一定会用。本文将介绍如何…

问题描述我所在的部门是BI，平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面，最近开始经常出问题，并且计算变慢。为了进行热备，决定把A集群的计算迁到B上一份，新抽取的数据可以在A和B…

Apache 企业实际使用并不多。最原始（基础）版本。这是学习hadoop的基础。 cloudera 对hadoop的升级，打包，开发了很多框架。flume、hue、impala都是这个公司开发 2008 年成立的 Cl…

文/michaelgbw 最近遇到一个跑数需求首先我想说之前php做的还是做服务多一点，数据的话我也只是做展示开发的工作，所以这篇文章有什么不妥，错误欢迎大家指正. 其实是最近才开始使用PHP来操作hadoop的，大家…

一、前言 Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表，并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。二、什么…

版本： spark 2.3.0 hadoop ： cdh 5.14.2-2.6.0 配置情况： spark-env.sh HADOOP_CONF_DIR=/etc/hadoop/conf YARN_CONF_DIR=/e…

基于apache hadoop的配置安装安装相关的大数据组件，包括： hadoop 2.6.2 spark 1.6.1 hbase 1.0.0 zookeeper 3.4.10 janusgraph 0.2.0 环境变…

环境准备一台主机（看个人的配置，当然配置越高性能越好，我自己的是i5+16G+1TB 64位 windows7系统） CentOS 7.0安装文件 hadoop-2.6.0.tar.gz、scala-2.10.5.tg…

Spark 是专为大规模数据处理而设计的快速通用的计算引擎，是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架，但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架，在…

前言： Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见推荐阅读材料）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次…

前言本文主要内容什么是OutputFormat及其运行机制？如何自定义自己的OutputFormat？实战自定义mysql OutputFormat。一丶什么是OutputFormat？定义了 spark 的…

hadoop 1.core-site.xml 1.fs.defaultFS hdfs默认端口 2.hadoop.tmp.dir Hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的…