分类：MapReduce

基于Spark SQL实现对HDFS操作的实时监控报警

1.前言 E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基…

本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。 Hadoop部署一般可大致分为传统集群部署和云上集群部署。具体而言，对于传统集群部…

（适用于hadoop 2.7及以上版本）涉及到RESTful API ResourceManager REST API’s：https://hadoop.apache.org/docs/stable/hadoop-ya…

本篇根据给力星改动而来，文尾有来源简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] H…

如果您的E-MapReduce集群需要和集群之外的数据库同步数据，需要确保网络是联通的。本文就RDS，ecs自搭，云下私有数据库三种情况，分别介绍如何配置网络。一.RDS 经典网络RDS 想要访问经典网络RDS，EMR…

背景在大数据应用场景下经常有数据文件的迁移工作，如果保障迁移之后数据的完整性是一个很常见的问题。对本地文件系统的数据而言，我们一般用md5工具（在Linux下可用md5sum命令）。而对云存储上的文件来说，md5不一…

Hadoop主要由两大部分组成，一个是分布式文件系统即HDFS，另一个是分布式计算框架MapReduce。关于HDFS详细介绍请参考：【Hadoop核心之HDFS 架构设计】本篇重点介绍分布式计算框架MapReduc…

经过了数据采集和同步之后，就可以在阿里云上进行数据分析和处理，来玩转您的数据了。本文向您介绍在阿里云大数据各产品中，以及各产品之间怎样来完成您的数据处理和数据分析。 MaxCompute 基于MaxCompute的大数据…

TaskScheduler，顾名思义，就是MapReduce中的任务调度器。在MapReduce中，JobTracker接收JobClient提交的Job，将它们按InputFormat的划分以及其他相关配置，生成若干个…

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。前置: 创建E-MapReduce集群，本文以非HA集群的HDFS为例 HDFS服务在hdfs账号下启动 HDFS软件包路径/usr/lib/ha…

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import org.apache.hadoo…

MaxCompute里的MR作业，很少是只要跑一次就好了的。如果需要周期性调度，目前MaxCompute（原名ODPS）只提供了计算引擎，任务调度可以使用大数据开发套件来实现。这篇帖子从基础开始，介绍了3种周期性调度的方…