标签：spark

elasticsearch-spark更新文档

先看源码： import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._ /** * Created by magn…

Broadcast 就是将数据从一个节点发送到其他各个节点上去。Spark有两种方式：一种是HttpBroadcast，另一种是TorrentBroadcast。 Driver 端： Driver 先把 data 序列化…

看这篇文章前，请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。这篇内容是个人的一些经验，大家用的时候还是建议好好…

启动Spark Speculative后，有时候运行任务会发现如下提示： WARN TaskSetManager: Lost task 55.0 in stage 15.0 (TID 20815, spark047216…

本例以卡特门罗求Pi的计算模型的日志做分析。运行在local模式中，具体代码如下 val conf = new SparkConf().setAppName(“Spark Pi”).setMast…

本文介绍下Spark 到底是如何运行sc.TextFile(…).map(….).count() 这种代码的，从driver端到executor端。引子今天正好有人在群里问到相关的问题，不过他…

Spark是什么 a) 是一种通用的大数据计算框架 b) Spark Core 离线计算 Spark SQL 交互式查询 Spark Streaming 实时流式计算 S…

简介工作中我们遇到了把Hive数据同步到Clickhouse的业务需求，一开始我们写Spark任务，用SparkSQL读Hive，再用JDBC写入到Clickhouse。后来，随着要同步的表越来越多，每次都写Spar…

Spark源码分析：Spark运行模式及原理 1.运行模式概述 spark运行模式多种多样，分为以下几种本地模式为分布式集群 standalone mesos hadoop yarn 基本框架： 2.相关类介绍 t…

1.什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和…

首先说下场景这个问题出现在Spark将Mysql导入Hbase中时遇到的 Spark 通过 BulkLoad 方式写 hbase Spark将数据写到 hdfs 后程序很久一直在运行没有退出但是我在查看Spark_UI…

最近在做spark和hbase的相关项目。暂且将其分为两部分：一是利用spark streaming消费前台推到kafka中的消息，进行简单处理后写入到hbase；然后就是利用spark读取hbase，将结果组装成jso…