NoClassDefFoundError:org.apache.hadoop.hdfs.server.namenode.NameNode 这个问题,困扰了我五天时间,之前使用Eclispe打包之后,在云服务器上面运行。 …
标签:spark
Spark端口总结
Spark的端口总结 Master节点的web端口是8080,work节点的web端口是8081 spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口(比如:Tomcat)时,启动m…
2018-11-17 Spark介绍系列文章
http://litaotao.github.io/introduction-to-spark 本系列文章链接 『 Spark 』1. spark 简介 『 Spark 』2. spark 基本概念解析 『 Spark …
Spark相关文章索引(3)
环境部署 Spark2.1.0的Standalone模式部署 基本常识 spark中的rdd的持久化 Spark入门实战系列–9.Spark图计算GraphX介绍及实例 《Spark 官方文档》Spark S…
spark比hadoop快的原因
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 Sp…
马士兵spark学习
文档地址 http://mashibing.com/wiki/Spark 上传文件 解压 #cd training #tar -xvf spark-2.1.0-bin-hadoop2.7.tgz # rm -rf spa…
Java Spark 简单示例(六)Spark Streaming Window
大数据学习交流微信群 前两天分享的Flink 学习笔记中有介绍滚动窗口和滑动窗口。Spark Streaming也是支持的。 在 Java Spark 简单示例(五)Spark Streaming 演示了Spark St…
编写Spark程序的几个优化点
虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。 针对这个这个问题,其实在spark1.6中,已经加入了dataset…
大数据Hadoop、Hive及Spark的内在联系
学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。 1.…
spark跟pandas数据转换
因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求. spark来处理数据预处理和特征工程,sklearn,xgboost来训练. 需要spark和sklea…
Spark机器学习库(MLlib)开发指南(1)
机器学习库(MLlib)开发指南(1) 本文是翻译自官方文档,如有错误,欢迎指正。 原文 https://spark.apache.org/docs/latest/ml-guide.html MLlib是spark的机器…
Spark 动态资源分配(Dynamic Resource Allocation) 解析
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。 前言 最近在使用Spark Streaming程序时,发现如下几个问题: 高峰和低峰S…