分类：MapReduce

hadoop Partitioner 分区

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import org.apache.hadoo…

今天查找分布式计算的有关资料，发现Google的三大核心技术MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文，更巧的是，这三篇中译版的原发地都是CSDN的Blog。张凌云在一个月之前发表的M…

Spark入门前言本人并未从事Spark相关的工作，但由于项目需要使用了Spark将算法实现并行化，所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spa…

Mac环境下Hadoop的安装与配置今天，由于云计算实验需要，同时对云计算也有很大兴趣，就在自己的Mac上安装了Hadoop。 === 首先我来简短介绍一下Hadoop： Hadoop是一个由Apache基金会所开发…

IDE下的MapReduce开发在学校上Hadoop的课，Group Project要写一些MapReduce，学校给了cluster，但是在cluster上直接开vim写JAVA着实不怎么习惯。于是折腾了一下踩了些坑…

阿里云 Elastic MapReduce（E-MapReduce）是一种大数据处理的系统解决方案。构建于阿里云云服务器 ECS 上，基于开源的 Apache Hadoop 和 Apache Spark，让用户可以方便…

package com.timger.tools /** * Created by timger on 15-1-26. */ import com.timger.etl.TokenizerMapper import o…

系统信息 master os: MAC OSX 10.10 ip: 192.168.2.108 hostname: master slaves1 os: MAC OSX 10.10 ip: 192.168.2.104 h…

Hive设置方法： SET mapreduce.job.queuename=root.up; SET mapreduce.job.priority=HIGH; set tez.queue.name=cmbi…

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议. 个人博客地址: http://andrewliu.tk 1. 系统参数配置通过Hado…

setup() 此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作…

title: MapReduce 多文件输入 date: 2016-06-16 16:26:16 tags: MapReduce 多路径输入 FileInputFormat.addInputPath 多次调用加载不同路径…