分类：MapReduce

“给服务器开发的应届生泼冷水”之我见

原博客：写给那些傻傻的，想做服务器开发的应届生 1 还有一些同学想做大数据分析，如果你写过 MapReduce 程序就不会这么想了。现在的 MapReduce 程序写起来太 easy 了，很多时候简单到你就只需要写一条类…

docker安装安装 yum install -y epel-releas yum install docker-io 加入开机启动 chkconfig docker on 启动docker service docke…

Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架，Spark 基于 map reduce 算法实现的分布式计算，拥有 Hadoop MapReduc…

例子来源于51CTO.com map.py #!/usr/bin/env python import re import sys for line in sys.stdin: val = line.strip() #从行…

Python内建了map()和reduce()函数。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”，你就能大…

基于docker1.7.03.1单机上部署hadoop2.7.3分布式集群 [TOC] 声明文章均为本人技术笔记，转载请注明出处：[1] https://segmentfault.com/u/yzwall[2] blo…

Hbase的存储Hbase在生态系统中的位置Hbase存储的逻辑视图Hbase的存储格式Hbase写数据流程Hbase快速响应数据 Hbase在生态系统中的位置　　HBase位于结构化存储层，Hadoop HDFS为HB…

机器学习（ML）库正变得越来越流行，现在有各种各样的这类库 – 维基百科中提及了49个[1]。这些机器学习库需要庞大的数据，通常此类数据是存储在关系型数据库中的业务数据，比如存放在EsgynDB或以其他形式…

原文发表在：http://blog.javachen.com/2014/07/18/install-hdfs-ha-in-cdh.html 最近又安装 hadoop 集群，故尝试了一下配置 HDFS 的 HA，CDH4…

摘要： DataX-On-Hadoop即使用hadoop的任务调度器，将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通…

什么是大数据？进入本世纪以来，尤其是2010年之后，随着互联网特别是移动互联网的发展，数据的增长呈爆炸趋势，已经很难估计全世界的电子设备中存储的数据到底有多少，描述数据系统的数据量的计量单位从MB（1MB大约等于一百万字…

本文已同步至个人博客 liaosi’s blog-Hadoop（三）Hadoop的伪分布式操作本文示例使用的VMWare虚拟机，Linux系统版本是CentOS 7_64位，Hadoop的版本是Hadoop…