1、scala版本:1.6.2;spark版本:2.10.5;sbt版本:0.13.8(在idea创建Scala项目时,选择对应的版本);2、在build.sbt中添加如下: libraryDependencies ++…
分类:scala
使用maven方式创建spark项目(配置pom.xml文件)
创建maven项目后,在pom.xml文件中添加如下配置项: <properties> <maven.compiler.source>1.8</maven.compiler.source&g…
How to Override Equals in Java and Scala
相信读过 《Effective Java》 的读者都已经知道编写 equals 方法的作用与重要性,基本概念不多做解释,这里就总结一下如何编写正确的 equals 方法。 equals 在 Java 和 Scala 中含…
在pyspark中调用scala代码
在pyspark中调用scala代码 情境说明 问题 我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题…
Spark安装部署
0x01 软件环境 Spark 官方提供了三种集群部署方案: Standalone, Mesos, YARN。其中 Standalone 最为方便,本文主要讲述结合 YARN 的部署方案。软件环境: CentOS_6.5…
大数据平台搭建 Hadoop-2.7.4 + Spark-2.2.0 快速搭建
Apache Spark 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop M…
Scala-2.13.0 安装及配置
Scala 简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上,并兼容现有的Java程序。 Scala 源代…
从源码层面理解Either、Option、Try
差异 Either 代表一个结果的两个可能性,一个是 Right ,一个是 Left Option 代表可选择的值,一个是 Some(代表有值),一个是 None (值为空);常用于结果可能为 null 的情况; Try…
Akka系列(十):Akka集群之Akka Cluster
上一篇文章我们讲了Akka Remote,理解了Akka中的远程通信,其实Akka Cluster可以看成Akka Remote的扩展,由原来的两点变成由多点组成的通信网络,这种模式相信大家都很了解,就是集群,它的优势主…
如何学习服务端开发—以代码工人的视角
理解并关注业务 无论是什么样的开发内容,都请将业务放在重要的位置。时常有人问我,我应该服务端 C++开发的职位,结果居然让我写业务,我听了也很是不解,沟通之下我才明白,原来他对于服务端开的理解就是网络,所以首先要明白服务…
Akka系列(九):Akka分布式之Akka Remote
Akka作为一个天生用于构建分布式应用的工具,当然提供了用于分布式组件即Akka Remote,那么我们就来看看如何用Akka Remote以及Akka Serialization来构建分布式应用。 背景 很多同学在程序…
Akka系列(八):Akka persistence设计理念之CQRS
这一篇文章主要是讲解Akka persistence的核心设计理念,也是CQRS(Command Query Responsibility Segregation)架构设计的典型应用,就让我们来看看为什么Akka per…