标签：spark

为什么Spark将成为数据科学家的统一平台

翻译自：Why Apache Spark is a Crossover Hit for Data Scientists，有删减。 Spark是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。数据科学是…

SparkContext 是spark的程序入口，相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。 /** * Main entry point for Spark fu…

SPARK核心编程一、spark基本工作原理与RDD 1.Spark的基本工作原理 1.分布式（RDD的partition） 2.主要是基于内存（少数情况下数基于磁盘） 3.迭代式计算（RDD->RDD->…

摘要：在Spark开发中，由于需要用Python实现，发现API与Scala的略有不同，而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢，还是中文版比较容易get到所需，所以利用闲暇之余将官…

安装好hdfs和hive后，hive启动bin/hive –service metastore 。默认监听9083端口。在intellij新建scala工程添加spark、hive依赖 <depen…

用spark解决大数据处理问题，强烈推荐scala语言，不要因为以前用python很六，就贪懒用pyspark。scala并没有特别难，尤其是只是想做大数据处理，不搞开发，一周绝对够了。问题如下： Py4JJavaEr…

梯度迭代树算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decis…

对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支…

目录 1. 建立连接 2. 创建表 3. 插入记录 4. 删除记录 5. 查询记录 5.1 根据RowKey查询 5.2 scan范围查询 5.3 复杂查询(过滤器的使用) 5.3.1 比较过滤器 5.3.2 行过滤器 …

创建或使用现有Session 从Spark 2.0 开始，引入了 SparkSession的概念，创建或使用已有的session 代码如下： 1 val spark = SparkSession 2 .builder 3…

文章被建议修改：不规范转载

Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统。它提供了 Java, Scala, Python 和 R 的高级 API，以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富…