1. Spark Shell测试 Spark Shell是一个特别适合快速开发Spark原型程序的工具,可以帮助我们熟悉Scala语言。即使你对Scala不熟悉,仍然可以使用这一工具。Spark Shell使得用户可以和…
分类:Spark
Spark搭建经验积累
昨天下午提交了第一个Spark程序:把搜集到的200M的电影字幕语料,500M的微博语料,以及几十M的保险问答语料,按每行一个句子的顺序,依次分词,送到Spark的Word2Vec中训练embedding矩阵。 运行一夜…
Presto,Spark SQL,Hive了解
大数据组件Presto,Spark SQL,Hive相互关系 https://blog.csdn.net/yilulvxing/article/details/86220888 blog.csdn.net 1.Hive…
spark1.6学习(四)——计算pv和uv的例子
本文主要介绍如何通过spark进行pv和uv的计算。一般我们经常会计算pv和uv,那么我们计算pv和uv的时候是不是性能最优的呢? 好,我们开始看例子: 首先看一下数据: {"flag":"sendTemp…
Spark(五十三):Spark RPC初尝试使用
基本用法主要掌握一点就行: master slave模式运用:driver 就是master,executor就是slave。 如果executor要想和driver交互必须拿到driver的EndpointRef,通过…
spark on yarn 运行问题记录
问题一: 18/03/15 07:59:23 INFO yarn.Client: client token: N/A diagnostics: Application application_1521099425266_…
Spark Thrift Server
ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候,会启动了一个SparkSQL的应用程序,…
【Spark MLlib】如何将海量字符串映射为数字——StringIndexer & IndexToString
【前言】在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数:用户id,商品名称,商品打分,前两个都需要是Int值。那么问题来了,当你的用户id,商品名称是String类型的情况下,我们必须…
在spark中操作mysql数据 ---- spark学习之七
使用spark的 DataFrame 来操作mysql数据。 DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考: https://spark.apache.org/docs/lates…
pyspark 内容介绍(一)
pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 …
spark大数据解决你想知道的问题
Spark 内存模型: Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。 execution内存是执行内存,文档中说join,aggrega…
Spark与深度学习框架——H2O、deeplearning4j、SparkNet
阅读原文请点击 摘要: 引言:你可能对使用Spark服务比较感兴趣。Spark已经提供了很多功能,也有一个好用的界面,而且背后有强大的社区,开发者十分活跃,这也是人们对Spark寄予厚望的原因。深度学习是当前正在进行中的…