标签：spark

Spark的动态资源分配机制

spark.dynamicAllocation.enabled：Whether to use dynamic resource allocation, which scales the number of executo…

1. Spark Shell测试 Spark Shell是一个特别适合快速开发Spark原型程序的工具，可以帮助我们熟悉Scala语言。即使你对Scala不熟悉，仍然可以使用这一工具。Spark Shell使得用户可以和…

昨天下午提交了第一个Spark程序：把搜集到的200M的电影字幕语料，500M的微博语料，以及几十M的保险问答语料，按每行一个句子的顺序，依次分词，送到Spark的Word2Vec中训练embedding矩阵。运行一夜…

大数据组件Presto，Spark SQL，Hive相互关系 https://blog.csdn.net/yilulvxing/article/details/86220888 blog.csdn.net 1.Hive…

本文主要介绍如何通过spark进行pv和uv的计算。一般我们经常会计算pv和uv，那么我们计算pv和uv的时候是不是性能最优的呢？好，我们开始看例子：首先看一下数据： {"flag":"sendTemp…

基本用法主要掌握一点就行： master slave模式运用：driver 就是master，executor就是slave。如果executor要想和driver交互必须拿到driver的EndpointRef，通过…

问题一： 18/03/15 07:59:23 INFO yarn.Client: client token: N/A diagnostics: Application application_1521099425266_…

ThriftServer是一个JDBC/ODBC接口，用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候，会启动了一个SparkSQL的应用程序，…

【前言】在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数：用户id，商品名称，商品打分，前两个都需要是Int值。那么问题来了，当你的用户id，商品名称是String类型的情况下，我们必须…

使用spark的 DataFrame 来操作mysql数据。 DataFrame是比RDD更高一个级别的抽象，可以应用SQL语句进行操作，详细参考： https://spark.apache.org/docs/lates…

pyspark 包介绍子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 …

Spark 内存模型： Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。 execution内存是执行内存，文档中说join，aggrega…