文档及下周网址 官网 http://hive.apache.org 文档 https://cwiki.apache.org/confluence/display/Hive/GettingStarted https://c…
标签:apache
Hadoop三大发行版本
Apache 企业实际使用并不多。最原始(基础)版本。这是学习hadoop的基础。 cloudera 对hadoop的升级,打包,开发了很多框架。flume、hue、impala都是这个公司开发 2008 年成立的 Cl…
Apache Impala现在已晋升为Apache顶级项目
在2017年11月28日,上午,apache宣布Impala晋升为apache顶级项目,这一令人振奋的消息。 image.png 五年前,cloudera计划开发一个全新的SQL引擎Apache Impala(这是第一个…
用 Apache Spark 和 TensorFlow 进行深度学习
本文由 Tim Hunter 发表于 ENGINEERING BLOG 本文链接:https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spar…
Spark与Apache Parquet
七十年代时,有一长辈连练铁砂掌,功夫成了之后,可以掌断五砖,凌空碎砖,威风得不得了。时至八十年代,只能掌断三砖。到九十年代只能一砖一砖的断了。他说,一直以为功力退步了,后来才知道烧砖的配方改了。 数据压缩 前言 前两篇将…
初识Apache Spark
第一次接触Spark,自己整理了(从网络,书籍,同事那里)一些Spark的相关内容当做笔记。路过的朋友仅供参考,不能保证说得都对。 什么是 Spark 简单来说,Spark是一种面向对象、函数式编程语言。Spark能够像…
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?
数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介…
使用Apache Spark做深度学习 - 第1部分
原文 Apache Spark的入门 如果你在Data World工作,那么你很有可能知道Apache Spark是什么。如果你不知道,那么也还好!我会告诉你它是什么。 Apache Spark TM 由其创建者定义的S…
Apache Spark简单介绍、安装及使用
Apache Spark 简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务。 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能。 Apache Sp…
Apache Spark相比Hadoop的优势
以下的话是由Apache Spark committer的Reynold Xin阐述。 从很多方面来讲,Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看: 1、他抽象出Map/Reduc…
全面对比,深度解析 Ignite 与 Spark
经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系。Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 Spark 进行支…
五种大数据处理架构Hadoop、Storm、Samza、Spark、Flink
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将…