我的原创地址: Spark Streaming+Kafka提交offset实现有且仅有一次(exactly-once) dongkelun.com 前言Spark Streaming+Kafka提交offset实现有且…
标签:spark
Spark原理详解
Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG…
Ubuntu 下 PySpark 安装
目录 1、什么是 Apache Spark? 2、spark安装(python版本) 3、在jupyter notebook中使用PySpark 1、什么是 Apache Spark? Apache Spark 是一种用…
ubuntu下安装和配置hadoop+spark集群记录
先前东看一个教程,西看一个教程,一直没有安装成功。后来搜到厦大林子雨老师团队的大数据教程,真是相当得棒。我是按照这篇博客《Spark 2.0分布式集群环境搭建(Python版)》进行安装和配置的。事毕,总结记录一下。 1…
Spark基础性能优化
最开始接触Spark是我刚来摩拜实习的时候,组里有一个架构师(ccmeng1886)为了找工作把Spark的源码通读了三遍ORZ,还一直给我们灌输学好Spark就能拿高工资的思想。正好年末不是很忙,就接了一个非常简单的项…
RDD、DataFrame和Dataset 怎么选择才好?
最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如…
舍弃Hive、拥抱SparkSQL,有赞的大数据实践
本文由 「AI前线」原创(ID:ai-front),原文链接:舍弃Hive、拥抱SparkSQL,有赞的大数据实践 作者 | 邹晨俊 来源 | 授权转载自微信公众号有赞Coder(ID:youzan_coder) 编辑 …
Spark常用算子
Spark的算子分类: 从大方向说,Spark算子大致可以分为以下两类: (1)Transformation变换/转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成另一个RDD的转换操…
Spark+Hadoop分布式集群架设攻略
因为在准备kaggle的缘故,想尝试下使用spark MLlib来进行机器学习,换了台新电脑,和旧电脑一起搭一个集群玩一玩。master节点使用的是win10的系统,但是集群运行在win10的ubuntu bash里面,…
Spark任务提交方式和执行流程
一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资…
Spark性能优化指南——高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有…
大数据基础【Task5】Spark常用API
spark集群搭建 初步认识Spark (解决什么问题,为什么比Hadoop快,基本组件及架构Driver/) 理解spark的RDD 使用shell方式操作Spark,熟悉RDD的基本操作 使用jupyter连接集群的…