分类：Spark

spark dataframe 如何保存到本地

在 Spark 2.x 里面，可以直接使用以下命令 df.write.format("csv").save(filepath)

摘要在学习使用Spark的过程中，总是想对内部运行过程作深入的了解，其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息，那么如何进行合理设置呢，不复杂但也绝不是将一个INFO换为TRACE那么简单。主…

代码优化部分多个Action计算最好基于同一个RDD进行计算操作, 并且对相同的RDD进行Cache操作，避免重复计算，增加任务的执行时间；并且持久化级别最好使用MEMORY_ONLY_SER来减少内存使用；在使用j…

本文将介绍spark on yarn模式下，怎样找到executor的日志。运行环境是基于HDP2.6.0.3-8版本。引言 spark on yarn应用在运行时和完成后日志的存放位置是不同的，一般运行时是存放在各个…

现在开源流处理框架越来越多，大家都熟知的有 Spark Streaming, NiFi, Flink等等。 Kafka Streams 也是其中一员。那么在众多的流处理框架中，Kafka Streams 有哪些独特的优…

1、数据处理加工模型（1）输入：文件，数据库，消息队列（2）处理：函数，sql，mapreduce，bolt，transform/action （3）输出：文件，数据库 2、spark简介 spark与hadoop开…

from: http://www.linuxidc.com/Linux/2016-03/129506.htm 背景目前按照大数据处理类型来分大致可以分为：批量数据处理、交互式数据查询、实时数据流处理，这三种数据处理方式…

Spark 事件体系的中枢是ListenerBus，由该类接受Event并且分发给各个Listener。MetricsSystem 则是一个为了衡量系统的各种指标的度量系统。Listener可以是MetricsSyste…

官方示例说明按照官方文档的这个示例说明，可以轻松的在本地的spark-shell环境中测试这个示例。示例，即为了更好的入门，那么就再说明一下。运行这个统计单词的方式有三种，前面两种是官方文档上的指引，第三种则是用s…

问题导读 1.UDF对spark sql的作用是什么？ 2.用Scala编写的UDF与普通的Scala函数唯一的区别在什么地方？ 3.如何在spark中使用UDF？在数据分析领域中，没有人能预见所有的数据运算，以至于将…

Job Server概述 Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts。此项目包含了完整的 Spark job serve…

我的原创地址：https://dongkelun.com/2018/07/04/sparkDfSortDesc/ 前言本文总结如何将DataFrame按某列降序排序，因为Spark默认的排序方式为升序，而降序的用法和j…