工欲善其事,必先利其器,本文精心整理了各大编程语言常用的量化分析工具,会用其中几个就应该可以在私募找到一份不错的量化工作,如果不想安装,推荐 BigQuant 一站式的Python+机器学习+量化投资平台,打开浏览器就可…
分类:Spark
基于mesos集群中spark是如何提交任务的
最近公司部署mesos,在测试的时候遇见一些问题,顺便研究了下spark任务的提交过程。将研究的结果和大家分享一下。 目前我们的任务提交,主要有command模式和Java调用API提交两种模式。根据目前研究的结果,无论…
PyCharm--帮助文档
PyCharm官方文档翻译 PyCharm快捷键
[Spark]-结构化数据查询之数据源篇
7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) …
如何使用Spark快速将数据写入Elasticsearch
如何使用Spark快速将数据写入Elasticsearch 说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有…
Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。 大部分函数与Hive的差不多。 除UDF函数,均可在spark-sql中直接使用。 经过import org.apa…
pyspark学习--dataframe
参考文章:master苏:pyspark系列–pyspark读写dataframe 创建dataframe 1.1 从变量创建 from pyspark.sql import SparkSession spa…
Spark 参数配置的几种方法
1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能。参数控制有以下方式:(1)直接设置在SparkConf,通过参数的形式传…
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重…
Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神…
python数据类型--字典
字典方法 返回值 方法详情 .clear() None 清空字典 .copy() dict 浅拷贝 .fromkeys(iterable, value=None) dict 静态方法, 以iterable为key, va…
Spark实现K-Means算法
K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初…