1.前言 E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基…
分类:MapReduce
Hadoop存储与计算分离实践
本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。 Hadoop部署一般可大致分为传统集群部署和云上集群部署。具体而言,对于传统集群部…
使用hadoop restful api实现对集群信息的统计
(适用于hadoop 2.7及以上版本) 涉及到RESTful API ResourceManager REST API’s:https://hadoop.apache.org/docs/stable/hadoop-ya…
Hadoop CentOS 7 安装配置
本篇根据 给力星 改动而来,文尾有来源 简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] H…
用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络
如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。 一.RDS 经典网络RDS 想要访问经典网络RDS,EMR…
E-MapReduce HDFS文件快速CRC校验工具介绍
背景 在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。对本地文件系统的数据而言,我们一般用md5工具(在Linux下可用md5sum命令)。 而对云存储上的文件来说,md5不一…
Hadoop核心之MapReduce架构设计
Hadoop主要由两大部分组成,一个是分布式文件系统即HDFS,另一个是分布式计算框架MapReduce。 关于HDFS详细介绍请参考:【Hadoop核心之HDFS 架构设计】 本篇重点介绍分布式计算框架MapReduc…
玩转大数据系列之二:数据分析与处理
经过了数据采集和同步之后,就可以在阿里云上进行数据分析和处理,来玩转您的数据了。本文向您介绍在阿里云大数据各产品中,以及各产品之间怎样来完成您的数据处理和数据分析。 MaxCompute 基于MaxCompute的大数据…
Hadoop TaskScheduler浅析
TaskScheduler,顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个…
E-MapReduce集群中HDFS服务集成Kerberos
本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。 前置: 创建E-MapReduce集群,本文以非HA集群的HDFS为例 HDFS服务在hdfs账号下启动 HDFS软件包路径/usr/lib/ha…
hadoop Partitioner 分区
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import org.apache.hadoo…
基于大数据开发套件定时调度带资源文件的MapReduce作业
MaxCompute里的MR作业,很少是只要跑一次就好了的。如果需要周期性调度,目前MaxCompute(原名ODPS)只提供了计算引擎,任务调度可以使用大数据开发套件来实现。这篇帖子从基础开始,介绍了3种周期性调度的方…