原博客:写给那些傻傻的,想做服务器开发的应届生 1 还有一些同学想做大数据分析,如果你写过 MapReduce 程序就不会这么想了。现在的 MapReduce 程序写起来太 easy 了,很多时候简单到你就只需要写一条类…
分类:MapReduce
Hadoop on Docker
docker安装 安装 yum install -y epel-releas yum install docker-io 加入开机启动 chkconfig docker on 启动docker service docke…
跟上大数据的步伐:快速搭建Spark集群
Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduc…
hadoop例子注释
例子来源于51CTO.com map.py #!/usr/bin/env python import re import sys for line in sys.stdin: val = line.strip() #从行…
python内置函数 map/reduce
Python内建了map()和reduce()函数。 如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”,你就能大…
基于docker1.7.03.1单机上部署hadoop2.7.3分布式集群
基于docker1.7.03.1单机上部署hadoop2.7.3分布式集群 [TOC] 声明 文章均为本人技术笔记,转载请注明出处:[1] https://segmentfault.com/u/yzwall[2] blo…
hbase
Hbase的存储Hbase在生态系统中的位置Hbase存储的逻辑视图Hbase的存储格式Hbase写数据流程Hbase快速响应数据 Hbase在生态系统中的位置 HBase位于结构化存储层,Hadoop HDFS为HB…
如何在EsgynDB中使用机器学习库(ML library)
机器学习(ML)库正变得越来越流行,现在有各种各样的这类库 – 维基百科中提及了49个[1]。 这些机器学习库需要庞大的数据,通常此类数据是存储在关系型数据库中的业务数据,比如存放在EsgynDB或以其他形式…
CDH中配置HDFS HA
原文发表在:http://blog.javachen.com/2014/07/18/install-hdfs-ha-in-cdh.html 最近又安装 hadoop 集群, 故尝试了一下配置 HDFS 的 HA,CDH4…
Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南
摘要: DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通…
学习Hadoop大数据基础框架
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字…
Hadoop(三)Hadoop的伪分布式操作
本文已同步至个人博客 liaosi’s blog-Hadoop(三)Hadoop的伪分布式操作 本文示例使用的VMWare虚拟机,Linux系统版本是CentOS 7_64位,Hadoop的版本是Hadoop…