本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前最火爆的Spark Streaming打造实时流处理项目实战,让你掌握实时…
标签:分布式
spark(六)深入理解spark-core:RDD的原理与源码分析
一.弹性分布式数据集(RDD) 本部分描述RDD和编程模型,首先讨论设计目标,然后定义RDD,讨论Spark的编程模型,并给出一个示例,最后对比RDD与分布式共享内存 RRD的特性 1.RDD拥有的优势特性:自动容错、位…
Spark入门教程(五)创建弹性分布式数据集Rdd以及Transformation操作
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 什么是弹性分布式数据集Rdd? 概念:RDD(Resilient Distributed Datasets)简单来说,就是Spark中元素的集合,如数组、集合、…
HBase – Hadoop Database简介及伪分布式搭建
【资源】hbase中文文档 http://abloz.com/hbase/book.html 【简介】 (1):HBase是一个分布式的、面向列的开源数据库,一个结构化数据的[分布式存储系统]”。 (2):HBase –…
【零基础】HBase从学习入门开始
基本了解: HBase:是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(…
HBase入门教程
阿里云大学免费课程:HBase入门教程 课程介绍: HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Big…
Hadoop基础知识
Hadoop起源 Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据;另一篇论文是“Mapreduce:Simplified Data Proce…
Hadoop入门教程免费下载
Hadoop入门教程免费下载,学习大数据的小伙伴应该都知道Hadoop是必须要接触的,学习大数据,从Hadoop入门教程开始。 Hadoop是什么? 首先我们了解到Hadoop是Apache软件基金会管理的开源软件平台,…
Hadoop入门概念
1.hadoop是什么? 一个适合大数据的分布式存储和计算平台. 是一个平台,分布式的存储和分布式的计算,在平台之上跑的一般都是大数据.抽象的层面理解hadoop就是一个分布式的平台. 2.什么是分布式的存储系统? 数据…
Hadoop真分布式集群最速搭建攻略
文章也同时在个人博客 http://kimihe.com/更新 1. 引言 笔者目前已经开启了博士预科,方向偏系统工程,涉及到分布式架构的设计与改进。Apache基于Google的MapReduce体系开发的hadoop…
尚硅谷大数据技术之Hadoop(MapReduce)第1章 MapReduce入门
1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整…
漫谈并发编程:用MPI进行分布式内存编程(入门篇)
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架…