1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import org.apache.hadoo…
分类:MapReduce
google大数据三大论文-中文版-英文版
今天查找分布式计算的有关资料,发现Google的三大核心技术MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文,更巧的是,这三篇中译版的原发地都是CSDN的Blog。 张凌云在一个月之前发表的M…
Spark入门
Spark入门 前言 本人并未从事Spark相关的工作,但由于项目需要使用了Spark将算法实现并行化,所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spa…
Mac环境下Hadoop的安装与配置
Mac环境下Hadoop的安装与配置 今天,由于云计算实验需要,同时对云计算也有很大兴趣,就在自己的Mac上安装了Hadoop。 === 首先 我来简短介绍一下Hadoop: Hadoop是一个由Apache基金会所开发…
IDE下的MapReduce开发
IDE下的MapReduce开发 在学校上Hadoop的课,Group Project要写一些MapReduce,学校给了cluster,但是在cluster上直接开vim写JAVA着实不怎么习惯。于是折腾了一下踩了些坑…
快速掌握阿里云 E-MapReduce
阿里云 Elastic MapReduce(E-MapReduce) 是一种大数据处理的系统解决方案。构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便…
scala 实现 hadoop 多重文件输出
package com.timger.tools /** * Created by timger on 15-1-26. */ import com.timger.etl.TokenizerMapper import o…
Hadoop学习——部署篇
系统信息 master os: MAC OSX 10.10 ip: 192.168.2.108 hostname: master slaves1 os: MAC OSX 10.10 ip: 192.168.2.104 h…
Hadoop设置任务执行队列及优先级
Hive设置方法: SET mapreduce.job.queuename=root.up; SET mapreduce.job.priority=HIGH; set tez.queue.name=cmbi…
Hadoop之倒排索引
本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议. 个人博客地址: http://andrewliu.tk 1. 系统参数配置 通过Hado…
MapReduce setup()和cleanup()方法
setup() 此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作…
MapReduce 多文件输入
title: MapReduce 多文件输入 date: 2016-06-16 16:26:16 tags: MapReduce 多路径输入 FileInputFormat.addInputPath 多次调用加载不同路径…