Spark踩坑记 https://zhuanlan.zhihu.com/p/60657101 【1号坑】spark-submit提交 jar 失败 提示:spark-submit /bin/spark-class: No…
标签:spark
【原】Spark Standalone模式
Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络…
spark(二)优化思路
优化思路 内存优化 内存优化大概分为三个方向 1.所有对象的总内存(包括数据和java对象) 2.访问这些对象的开销 3.垃圾回收的开销 其中Java的原生对象往往都能被很快的访问,但是会多占据2-5倍或更多的内存,有下…
Apache Spark源码走读之9 -- Spark源码编译
欢迎转载,转载请注明出处,徽沪一郎。 概要 本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了。但到了Spark上面,事情似乎不这么简单,按照spark o…
每一个宽客都应该收藏的量化“利器”
工欲善其事,必先利其器,本文精心整理了各大编程语言常用的量化分析工具,会用其中几个就应该可以在私募找到一份不错的量化工作,如果不想安装,推荐 BigQuant 一站式的Python+机器学习+量化投资平台,打开浏览器就可…
基于mesos集群中spark是如何提交任务的
最近公司部署mesos,在测试的时候遇见一些问题,顺便研究了下spark任务的提交过程。将研究的结果和大家分享一下。 目前我们的任务提交,主要有command模式和Java调用API提交两种模式。根据目前研究的结果,无论…
PyCharm--帮助文档
PyCharm官方文档翻译 PyCharm快捷键
[Spark]-结构化数据查询之数据源篇
7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) …
如何使用Spark快速将数据写入Elasticsearch
如何使用Spark快速将数据写入Elasticsearch 说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有…
Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。 大部分函数与Hive的差不多。 除UDF函数,均可在spark-sql中直接使用。 经过import org.apa…
pyspark学习--dataframe
参考文章:master苏:pyspark系列–pyspark读写dataframe 创建dataframe 1.1 从变量创建 from pyspark.sql import SparkSession spa…
Spark 参数配置的几种方法
1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能。参数控制有以下方式:(1)直接设置在SparkConf,通过参数的形式传…