分类：MapReduce

[LeetCode/LintCode] Top K Frequent Words

LeetCode version Problem Given a non-empty list of words, return the k most frequent elements. Your answer sho…

hadoop官方文档 http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html 关闭防火墙 service iptables stop 修改 vi /home…

一：概要模式 1：简介概要设计模式更接近简单的MR应用，因为基于键将数据分组是MR范型的核心功能，所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要（numerical summarization），倒…

TaskScheduler，顾名思义，就是MapReduce中的任务调度器。在MapReduce中，JobTracker接收JobClient提交的Job，将它们按InputFormat的划分以及其他相关配置，生成若干个…

一、调整参数入门级的调优可以从调整参数开始。投入小，回报快。 1. Write Buffer Size 快速配置设置buffer的容量，例子中设置了6MB的buffer容量。必须禁止auto flush。 6MB是…

经过了数据采集和同步之后，就可以在阿里云上进行数据分析和处理，来玩转您的数据了。本文向您介绍在阿里云大数据各产品中，以及各产品之间怎样来完成您的数据处理和数据分析。 MaxCompute 基于MaxCompute的大数据…

前言由于项目的需要，hadoop2.2.0与hbase0.98.5的集群搭建已经有一段时间了。今日重新研究了一遍整个集群的搭建，对整个搭建过程有了进一步的理解。准备工作时间的同步主节点上使用ssh-keygen生…

E-MapReduce(Hadoop)10大类问题之集群规划-博客-云栖社区-阿里云 https://yq.aliyun.com/articles/59064 典型的离线场景用户每天增加100G的数据，1个月3T，压缩…

大数据，无论是从产业上，还是从技术上来看，都是目前的发展热点。在中国，政府控制着80%的数据，剩下的多由“BAT”这样的大公司拥有，中小企业如何构建自己的大数据系统？其他企业如何建设自己的大数据系统？推荐两大应用最广泛…

在 EMR 中使用 Mongo-Hadoop Mongo-Hadoop 是 MongoDB 推出的用于 Hadoop 系列组件连接 MongoDB 的组件。其原理跟我们上一篇文章介绍的 ES-Hadoop 类似。EMR …

1 提出问题 Map最小输入数据单元是InputSplit。比如对于那么对于一个记录行形式的文本大于128M时，HDFS将会分成多块存储（block），同时分片并非到每行行尾。这样就会产生两个问题： 1、Hadoop的一…

一、引言目前网站的一些业务数据存在数据库中，这些数据往往需要做进一步的分析，如：需要根据一些日志数据关联分析，或者需要进行一些如机器学习的分析。在阿里云上，目前E-Mapreduce能满足这种分析的需求。在E-Map…