标签：scala

大数据学习（spark的三个样例编程）

首先准备好hadoop和spark以及scala的环境主节点如下分节点如下然后完成以及idea的安装以及idea上scala的插件安装，我们就可以开始编程了。有以下两点需要注意的： 1.scala和spark的版…

需要先安装Hadoop2.7完全分布式集群搭建。一、安装Scala 1.下载scala-2.11.8.tgz,并解压 tar -zxvf ~/Downloads/scala-2.11.8.tgz -C /usr/loc…

Scala基础 Spark的原生语言是Scala，因此入门一下Scala是学习Spark的第一步，下面就快速入门一下，争取不花太多的时间。之后的简书中还会有Scala进阶，交代一些其他特性。这篇Scala基础应该可以暂时…

一、避免null的使用大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”，在Java，它是null。在Java 里，null 是一个关键字，不是一个对象，所以对它调用任何方法都是非法的。但是这对语言设计…

Spark 是用scala语言实现的，专为大规模数据处理而设计的快速通用的计算引擎。安装scala 所需文件 : scala-intellij-bin-2016.3.9.zip hadoop2.6 test1.txt …

0x01前言官网上的spark with scala 的文档比较难理解,内容也特别少。初学遇到很多实际情况，会很迷茫怎么处理数据。在此把自己踩的坑列一列，供初学者参考。大牛请轻拍，有问题欢迎指教。 0x02 理解 …

使用spark自带的上下界限来分区的不均匀性导致传输慢(木桶效应): scala> a.split("\\n").map(x=>x.toInt) res25: Array[Int] = Array(12344…

在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载，但是官网并没有声明支持2.12，官网是支持2.11 的，但是有时候我们还是需要在spark-submit 上支持 2.…

上了数据挖掘的课，要写结课论文了。于是选择了Spark作为自己的课程主题，也是为自己之后的毕业论文打下知识基础，这里将自己的第一试验记录下来，以便之后的回顾。 1.环境配置这是我的开发环境： Windows 10 阿里…

一、Spark简介由加州大学伯克利分校的AMP实验室开源大规模分布式通用计算引擎具有高吞吐、低延时、通用易扩展、高容错等特点使用Scala语言开发，提供了丰富的开发API，支持Scala、Java、 Python…

SparkSQL如何直接访问hive元数据信息不再需要去mysql里的表里去查找 [hadoop@hadoop001 bin]$ ./spark-shell --master local[2] --jars ~/sof…

scala真是一门有趣的语言，虽然编译后的程序跟java一样也运行在JVM之上，但是scala可真不像java那样易于理解，前两天我就遇到了一个有趣的语法故事，是和scala中的集合类HashMap（Map也是一样的）的…