误解一:Spark是一种内存技术 大家对Spark最大的误解就是其是一种内存技术(in-memorytechnology)。其实不是这样的!没有一个Spark开发者正式说明这个,这是对Spark计算过程的误解。 …
分类:Spark
pyspark系列--自定义函数
自定义函数 1. 概览 2. 自定义函数的一般流程 3. 简单的自定义函数 4. 自定义函数进阶 1. 概览 自定义函数的重点在于定义返回值类型的数据格式,其数据类型基本都是从from pyspark.sql.types…
Spark面试
1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text…
转】 Spark SQL UDF使用
原博文出自于: http://blog.csdn.net/oopsoom/article/details/39401391 感谢! Spark1.1推出了Uer …
spark2.1:使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)
最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本,其中遇到将case when 替换为scala操作df的方式实现的问题: 代码数据: scala> import org.apache.…
Spark记录-SparkSQL相关学习
$spark-sql –help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; …
Spark配置&启动脚本分析
本文档基于Spark2.0,对spark启动脚本进行分析。 date:2016/8/3 author:wangxl Spark配置&启动脚本分析 我们主要关注3类文件,配置文件,启动脚本文件以及自带shell。 …
python库--tensorflow--scope命名方式
方法 参数 说明 .name_scope() with…: name 在其下使用Variable, 变量名(V_n)前会被加上’name/…’且…
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程 菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发。 Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我们从一段最最基础的J…
Spark官方1 ---------Spark SQL和DataFrame指南(1.5.0)
概述 Spark SQL是用于结构化数据处理的Spark模块。它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎。 Spark SQL也可用于从现有的Hive安装中读取数据。有关如何配置此功能…
pyspark学习--连接spark
参考这篇文章:master苏:pyspark系列–连接spark 1.连接spark集群 如果需要在集群中使用指定的python版本(系统默认是2.6),如python3.5,那么就需要在每个节点都安装pyt…
spark面试必须掌握的知识点概览
最近很多球友都说在准备面试,不知道准备点啥,尤其是spark,实际上星球里浪尖分享的内容真的都掌握了,应对一般面试绝对没问题,但是遗憾的事情是很多人都是处于不会主动搜集资料,主动梳理知识,主动记忆整理知识,而是伸手要粮的…