标签：MapReduce

此文献给正打算入门大数据的朋友：大数据学习笔记1000条（2）

501、MapReduce计算框架中的输入和输出的基本数据结构是键-值对。 502、Hadoop神奇的一部分在于sort和shuffle过程。 503、Hive驱动计算的“语言”是一XML形式编码的。 504、Hive通…

（适用于hadoop 2.7及以上版本）涉及到RESTful API ResourceManager REST API’s：https://hadoop.apache.org/docs/stable/hadoop-ya…

一、概念介绍在java8 JDK包含许多聚合操作（如平均值，总和，最小，最大，和计数），返回一个计算流stream的聚合结果。这些聚合操作被称为聚合操作。JDK除返回单个值的聚合操…

一.基本信息 1. 服务器基本信息主机名 ip地址安装服务 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 …

什么是 Join Join，翻译过来是加入、连接、结合的意思。而在数据处理中，join 是对表的操作。表是数据存储的一种形式，就像 excel 中的表一样。我们为了想得到想要的结果，需要分析多张表，而把两张或更…

最近研读了 Boyd 2011 年那篇关于 ADMM 的综述。我从这篇综述里整理出了一个条思路，顺着这个思路看下去，就能对 ADMM 原理和应用有个大概的了解。因此，此文可以当做 ADMM 的快速入门。交替方向乘子法（…

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4…

hive 0.10.0为了执行效率考虑，简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs文件进行filter过滤。 1、本地模式下，hive可…

mapper.py #!/usr/bin/env python """A more advanced Mapper, using Python iterators and generators.""" import sy…

原博客：写给那些傻傻的，想做服务器开发的应届生 1 还有一些同学想做大数据分析，如果你写过 MapReduce 程序就不会这么想了。现在的 MapReduce 程序写起来太 easy 了，很多时候简单到你就只需要写一条类…

Hadoop 的用户日志有很多的用途, 首先最重要的是, 它们能用来调试 MapReduce 应用(application)的问题, 可能是应用本身的问题, 或者在极少数的情况下, 当在集群中执行应用时, 日志可以用来调…

之前的文章大量的内容在和大家探讨分布式存储，接下来的章节进入了分布式计算领域。坦白说，个人之前专业的重心侧重于存储，对许多计算的内容理解可能不是和确切，如果文章中的理解有所不妥，愿虚心赐教。本篇将和大家聊一聊分布式计算的…