分类：Spark

Spark(Scala)-示例程序

1.版本 system: windows10 jdk: 1.8.0_141 scala: 2.10.5 spark: spark-2.0.2-bin-hadoop2.6 IntelliJ: 15.0.6 2.基本环境安装…

1 从Shark到Spark SQL Spark SQL的前生是Shark，即Hive on Spark。Shark本质是通过Hive的HQL进行解析，将HiveQL翻译成Spark上对应的RDD操作，然后通过Hive的…

Spark2.x+Python大数据机器学习视频课程课程学习地址：http://www.xuetuwuyou.com/course/303 课程出自学途无忧网：http://www.xuetuwuyou.com 讲师：…

一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoi…

启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar，非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理…

基于优化和数据的有序性等问题考虑，某个设备的日志数据分到指定的计算节点，减少数据的网络传输我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多…

在尝试Spark + MongoDB过程中，总是遇到Cursor xxxxx not found错误，尝试加入keep_alive_ms 和 pipeline 也不能解决问题。目前总数据量在10000条左右，从Mon…

1、引言突发奇想，想做这样一件事，有一堆句子，每个句子都已经表示成了特征向量。当有一个新句子到来的时候，如何计算这个新句子与这一堆句子的相似性？嗨呀，这还不简单么，循环计算，再排个序不就行了么。对，这样的想法当然没错…

概述 Alluxio（在1.0版本之前名为Tachyon）是一个以内存分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。…

本文适用于Kafka broker 0.8.2.1及更高版本。这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 – 老方法使用Receiver和Kafka的高层API，新方法…

Check Point sparkContext.setCheckpointDir() spark的checkpoint目录在集群模式下，必须是 hdfs path。因为在集群模式下，实际上 checkpointed R…

combineByKey 官方文档描述： Generic function to combine the elements for each key using a custom set of aggregation f…