首先准备好hadoop和spark以及scala的环境 主节点如下 分节点如下 然后完成以及idea的安装以及idea上scala的插件安装,我们就可以开始编程了。 有以下两点需要注意的: 1.scala和spark的版…
标签:scala
spark-2.1.1-hadoop2.7+Ubuntu14完全分布式集群搭建
需要先安装Hadoop2.7完全分布式集群搭建。 一、安装Scala 1.下载scala-2.11.8.tgz,并解压 tar -zxvf ~/Downloads/scala-2.11.8.tgz -C /usr/loc…
从零开始学习Spark(二)Scala基础
Scala基础 Spark的原生语言是Scala,因此入门一下Scala是学习Spark的第一步,下面就快速入门一下,争取不花太多的时间。之后的简书中还会有Scala进阶,交代一些其他特性。这篇Scala基础应该可以暂时…
Spark(八) scala中的Option、Some、None
一、避免null的使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”,在Java,它是null。在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计…
在idea中使用spark
Spark 是用scala语言实现的,专为大规模数据处理而设计的快速通用的计算引擎。 安装scala 所需文件 : scala-intellij-bin-2016.3.9.zip hadoop2.6 test1.txt …
# 数据分析最佳实践 - spark Dataset/DataFrame数据存取及处理
0x01前言 官网上的spark with scala 的文档比较难理解,内容也特别少。初学遇到很多实际情况,会很迷茫怎么处理数据。 在此把自己踩的坑列一列,供初学者参考。 大牛请轻拍,有问题欢迎指教。 0x02 理解 …
spark读取oracle数据调优
使用spark自带的上下界限来分区的不均匀性导致传输慢(木桶效应): scala> a.split("\\n").map(x=>x.toInt) res25: Array[Int] = Array(12344…
如何让spark 2.4 支持scala 2.12
在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载,但是官网并没有声明支持2.12,官网是支持2.11 的,但是有时候我们还是需要在spark-submit 上支持 2.…
超详细的使用Intellij IDEA+Maven开发Spark项目的流程
上了数据挖掘的课,要写结课论文了。于是选择了Spark作为自己的课程主题,也是为自己之后的毕业论文打下知识基础,这里将自己的第一试验记录下来,以便之后的回顾。 1.环境配置 这是我的开发环境: Windows 10 阿里…
Spark计算引擎
一、Spark简介 由加州大学伯克利分校的AMP实验室开源 大规模分布式通用计算引擎 具有高吞吐、低延时、通用易扩展、高容错等特点 使用Scala语言开发,提供了丰富的开发API,支持Scala、Java、 Python…
(十二)SparkSQL Catalog访问Hive元数据信息
SparkSQL如何直接访问hive元数据信息 不再需要去mysql里的表里去查找 [hadoop@hadoop001 bin]$ ./spark-shell --master local[2] --jars ~/sof…
scala中HashMap的map方法
scala真是一门有趣的语言,虽然编译后的程序跟java一样也运行在JVM之上,但是scala可真不像java那样易于理解,前两天我就遇到了一个有趣的语法故事,是和scala中的集合类HashMap(Map也是一样的)的…