标签：spark

Spark SQL

Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是…

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis。创建服务我们以EMR-3.21.0版…

推送avro格式数据到topic 源代码：https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aco…

mysql jdbc driver下载地址https://dev.mysql.com/downloads/connector/j/ 在spark中使用jdbc1.在 spark-env.sh 文件中加入:export S…

　　误解一：Spark是一种内存技术　　大家对Spark最大的误解就是其是一种内存技术（in-memorytechnology）。其实不是这样的！没有一个Spark开发者正式说明这个，这是对Spark计算过程的误解。 …

自定义函数 1. 概览 2. 自定义函数的一般流程 3. 简单的自定义函数 4. 自定义函数进阶 1. 概览自定义函数的重点在于定义返回值类型的数据格式，其数据类型基本都是从from pyspark.sql.types…

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text…

　　原博文出自于：　　http://blog.csdn.net/oopsoom/article/details/39401391　　　　感谢！　　Spark1.1推出了Uer …

最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本，其中遇到将case when 替换为scala操作df的方式实现的问题：代码数据： scala> import org.apache.…

$spark-sql –help 查看帮助命令 $设置任务个数，在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; …

本文档基于Spark2.0，对spark启动脚本进行分析。 date：2016/8/3 author:wangxl Spark配置&启动脚本分析我们主要关注3类文件，配置文件，启动脚本文件以及自带shell。 …

方法参数说明 .name_scope() with…: name 在其下使用Variable, 变量名(V_n)前会被加上’name/…’且…