1.版本 system: windows10 jdk: 1.8.0_141 scala: 2.10.5 spark: spark-2.0.2-bin-hadoop2.6 IntelliJ: 15.0.6 2.基本环境安装…
分类:Spark
Spark系列3 - Spark SQL
1 从Shark到Spark SQL Spark SQL的前生是Shark,即Hive on Spark。Shark本质是通过Hive的HQL进行解析,将HiveQL翻译成Spark上对应的RDD操作,然后通过Hive的…
【学途无忧网】Spark2.x+Python大数据机器学习视频课程
Spark2.x+Python大数据机器学习视频课程 课程学习地址:http://www.xuetuwuyou.com/course/303 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:…
【容错篇】Spark Streaming的还原药水——Checkpoint
一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoi…
`spark.yarn.jar`和`spark.yarn.archive`的使用
启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理…
Spark自定义分区(Partitioner)
基于优化和数据的有序性等问题考虑,某个设备的日志数据分到指定的计算节点,减少数据的网络传输 我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多…
碰壁Spark + Mongodb
在尝试Spark + MongoDB过程中,总是遇到Cursor xxxxx not found错误, 尝试加入keep_alive_ms 和 pipeline 也不能解决问题。 目前总数据量在10000条左右,从Mon…
PySpark初体验!
1、引言 突发奇想,想做这样一件事,有一堆句子,每个句子都已经表示成了特征向量。当有一个新句子到来的时候,如何计算这个新句子与这一堆句子的相似性? 嗨呀,这还不简单么,循环计算,再排个序不就行了么。对,这样的想法当然没错…
Spark & Alluxio
概述 Alluxio(在1.0版本之前名为Tachyon)是一个以内存分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。…
[译]Spark Streaming + Kafka集成指南
本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 – 老方法使用Receiver和Kafka的高层API,新方法…
Spark之CheckPoint
Check Point sparkContext.setCheckpointDir() spark的checkpoint目录在集群模式下,必须是 hdfs path。因为在集群模式下,实际上 checkpointed R…
【Spark Java API】Transformation(10)—combineByKey、groupByKey
combineByKey 官方文档描述: Generic function to combine the elements for each key using a custom set of aggregation f…