一、github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本…
分类:MapReduce
Hadoop专业解决方案-第3章:MapReduce处理数据
前言:非常感谢团队的努力,最新的章节终于有了成果,因为自己的懒惰,好久没有最新的进展了,感谢群里兄弟的努力。 群名称是 Hadoop专业解决方案群 313702010 本章主要内容: ★理解MapReduce…
Ubuntu下配置安装Hadoop 2.2
—恢复内容开始— 这两天玩Hadoop,之前在我的Mac上配置了好长时间都没成功的Hadoop环境,今天想在win7 虚拟机下的Ubuntu12.04 64位机下配置, 然后再建一个组群看一看。 …
MapReduce
论文:https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf 译文: MapR…
PySpark操作HBase时设置scan参数
在用PySpark操作HBase时默认是scan操作,通常情况下我们希望加上rowkey指定范围,即只获取一部分数据参加运算。翻遍了spark的python相关文档,搜遍了google和stackoverfl…
MapReduce编程中常用的字符操作
本文主要用于记录自己在编写mapreduce程序时常用的一些方法,后期会不断更新,用于自己复习和给新手一些帮助。 字符串操作 String str = " 12345"; // 字符串中是否包含某子字符串 System.…
主流大数据技术
主流的大数据技术可以分为两类:一类是面向非实时批处理业务场景,着重于处理传统数据处理技术在有限的时空环境里无法胜任的TB级、PB级海量数据存储、加工、分析、应用等。比较主流的支撑技术有:HDFS、MapRe…
mapreduce (四) MapReduce实现Grep+sort
1.txt dong xi cheng xi dong cheng wo ai beijing tian an men qiche dong dong dong 2.txt dong xi cheng xi dong c…
用Spark解决一些经典MapReduce问题
摘要 Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让…
Hadoop大数据开发框架学习
一.Hadoop框架介绍 hadoop是Apache发布的开源分布式基础架构他的两个核心是 HDFSHDFS是Hadoop的文件管理系统,负责了海量数据的存储,是做大数据的基础 MapReduceMapReduce则是为…
Hadoop就业面试题
———————————————̵…
Hadoop YARN中内存的设置
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceMan…