翻译自:Why Apache Spark is a Crossover Hit for Data Scientists,有删减。 Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。 数据科学是…
标签:spark
spark 笔记 5: SparkContext,SparkConf
SparkContext 是spark的程序入口,相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。 /** * Main entry point for Spark fu…
spark
SPARK核心编程 一、spark基本工作原理与RDD 1.Spark的基本工作原理 1.分布式(RDD的partition) 2.主要是基于内存(少数情况下数基于磁盘) 3.迭代式计算(RDD->RDD->…
《Spark Python API 官方文档中文版》 之 pyspark.sql (二)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官…
intellij下spark访问hive
安装好hdfs和hive后,hive启动bin/hive –service metastore 。默认监听9083端口。 在intellij新建scala工程 添加spark、hive依赖 <depen…
#解决bug#用spark做数据分析强烈推荐不要用pyspark
用spark解决大数据处理问题,强烈推荐scala语言,不要因为以前用python很六,就贪懒用pyspark。scala并没有特别难,尤其是只是想做大数据处理,不搞开发,一周绝对够了。 问题如下: Py4JJavaEr…
梯度迭代树(GBDT)算法简介及Spark MLlib调用
梯度迭代树 算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decis…
spark与storm的对比
对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支…
ghbase使用文档
目录 1. 建立连接 2. 创建表 3. 插入记录 4. 删除记录 5. 查询记录 5.1 根据RowKey查询 5.2 scan范围查询 5.3 复杂查询(过滤器的使用) 5.3.1 比较过滤器 5.3.2 行过滤器 …
spark 源码分析之二 -- SparkContext 的初始化过程,scala class中孤立代码块揭秘
创建或使用现有Session 从Spark 2.0 开始,引入了 SparkSession的概念,创建或使用已有的session 代码如下: 1 val spark = SparkSession 2 .builder 3…
Hadoop、Hive、Spark之间是什么关系
文章被建议修改:不规范转载
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统。 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富…