标签：spark

Spark Streaming并发提交job

Spark job 我们都知道，spark的执行是lazy的，也就是spark的函数分为两类: Transform和action. 只有在使用action函数时，才会触发一个spark job. 串行的Spark job…

为了Spark Streaming应用能在生产中稳定、有效的执行，每批次数据处理时间（批处理时间）必须非常接近批次调度的时间…

大数据学习交流微信群 Spark 采用Lineage（书里叫血统）和CheckPoint（检查点）两种方式来解决分布式数据集中的容错问题。Lineage本质上类似于数据库的重做日志（redo log），只不过这个日志粒度…

起因：部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2，系HDP-2.3.4自带的Spark组件，现在需要将之升级到目前的最新版本（2.2.1）。作为一…

ACL Management for Spark SQL Three primary modes for Spark SQL authorization are available with spark-authoriz…

前言这个算是Spark Streaming 接收数据相关的第三篇文章了。前面两篇是： Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Strea…

Spark 1.6单机环境的安装准备 Spark官网文档描述的是： Spark runs on Java 7+, Python 2.6+/3.4+ a…

循序渐进学Saprk 与Hadoop相比，Spark最初为提升性能而诞生。Spark是Hadoop MapReduce的演化和改进，并兼容了一些数据库的基本思想，可以说，Spark一开始就站在Hadoop与数据库这两个巨…

1. 比rdd更省内存 2. 执行效率更高 3.接口友好，使用方便 mark： https://databricks.com/blog/2016/01/04/introducing-apache-spark-datase…

Spark MLlib机器学习开发指南(6)–特征提取，转换，选择–CountVectorizer 翻译自CountVectorizer,基于最新2.2.0版本翻译,转载注明出处 xcrossed…

背景：诞生于伯克利大学AMPLab的Spark是当今大数据领域最活跃、最热门、最高效的大数据通用平台，是Apache软件基金会所有开源项目中三大顶级开源项目之一。 1.1 Spark：一体化、多元化的告诉大数据通用计算平…

Spark数据处理 Spark作为分布式数据处理的一个开源框架，因其计算的高效性和简洁的API而广受欢迎。一般来说，Spark大部分时候被用来进行批处理。但现在Spark通过其SparkStreaming模块也实现了一定…