标签：spark

关于spark-submit之后，报错NoClassDefFoundError

NoClassDefFoundError：org.apache.hadoop.hdfs.server.namenode.NameNode 这个问题，困扰了我五天时间，之前使用Eclispe打包之后，在云服务器上面运行。 …

Spark的端口总结 Master节点的web端口是8080,work节点的web端口是8081 spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口（比如:Tomcat）时，启动m…

http://litaotao.github.io/introduction-to-spark 本系列文章链接『 Spark 』1. spark 简介『 Spark 』2. spark 基本概念解析『 Spark …

环境部署 Spark2.1.0的Standalone模式部署基本常识 spark中的rdd的持久化 Spark入门实战系列–9.Spark图计算GraphX介绍及实例《Spark 官方文档》Spark S…

Spark SQL比Hadoop Hive快，是有一定条件的，而且不是Spark SQL的引擎比Hive的引擎快，相反，Hive的HQL引擎还比Spark SQL的引擎更快。其实，关键还是在于Spark 本身快。 Sp…

文档地址 http://mashibing.com/wiki/Spark 上传文件解压 #cd training #tar -xvf spark-2.1.0-bin-hadoop2.7.tgz # rm -rf spa…

大数据学习交流微信群前两天分享的Flink 学习笔记中有介绍滚动窗口和滑动窗口。Spark Streaming也是支持的。在 Java Spark 简单示例（五）Spark Streaming 演示了Spark St…

虽然spark已经提供了大量简单易用的API，但要想编写出高性能的spark应用，必须要对整体框架有一定的了解，对于Spark初学者来说是比较困难的。针对这个这个问题，其实在spark1.6中，已经加入了dataset…

学习大数据不可避免地会用到Hadoop、Hive、Spark等内容，也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具，归根结底还是要面向大数据的四个核心问题。 1.…

因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求. spark来处理数据预处理和特征工程,sklearn,xgboost来训练. 需要spark和sklea…

机器学习库(MLlib)开发指南（1）本文是翻译自官方文档，如有错误，欢迎指正。原文 https://spark.apache.org/docs/latest/ml-guide.html MLlib是spark的机器…

Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。前言最近在使用Spark Streaming程序时，发现如下几个问题：高峰和低峰S…