分类：Spark

每一个宽客都应该收藏的量化“利器”

工欲善其事，必先利其器，本文精心整理了各大编程语言常用的量化分析工具，会用其中几个就应该可以在私募找到一份不错的量化工作，如果不想安装，推荐 BigQuant 一站式的Python+机器学习+量化投资平台，打开浏览器就可…

最近公司部署mesos,在测试的时候遇见一些问题，顺便研究了下spark任务的提交过程。将研究的结果和大家分享一下。目前我们的任务提交，主要有command模式和Java调用API提交两种模式。根据目前研究的结果，无论…

PyCharm官方文档翻译 PyCharm快捷键

7. 数据源　　Spark-SQL 支持通过Dataframe接口对各种数据源进行操作　　　　各种数据源的加载&保存　　　　数据转换(relational transformations) 　　　…

如何使用Spark快速将数据写入Elasticsearch 说到数据写入Elasticsearch，最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短，寸有…

org.apache.spark.sql.functions是一个Object，提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数，均可在spark-sql中直接使用。经过import org.apa…

参考文章：master苏：pyspark系列–pyspark读写dataframe 创建dataframe 1.1 从变量创建 from pyspark.sql import SparkSession spa…

1.Spark 属性Spark应用程序的运行是通过外部参数来控制的，参数的设置正确与否，好与坏会直接影响应用程序的性能，也就影响我们整个集群的性能。参数控制有以下方式：（1）直接设置在SparkConf，通过参数的形式传…

1. RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的弹性分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间可重…

摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神…

字典方法返回值方法详情 .clear() None 清空字典 .copy() dict 浅拷贝 .fromkeys(iterable, value=None) dict 静态方法, 以iterable为key, va…

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。 MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初…