前言 Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了spark-deep-lear…
分类:Spark
spark 2.3.1入门学习
基础环境 vi /etc/hosts 192.168.74.10 host196 192.168.74.29 host197 192.168.74.30 host198 安装jdk,zookeeper,hadoop 安装…
Spark On Yarn的各种Bug
今天将代码以Spark On Yarn Cluster的方式提交,遇到了很多很多问题.特地记录一下. 代码通过--master yarn-client提交是没有问题的,但是通过--master yarn-cluster总…
【博客存档】Machine Learning With Spark Note 5:构建聚类模型
构建聚类模型 在Machine Learning领域中,我们常会遇到聚类模型这个概念,和分类与回归模型不同,聚类model是属于无监督模型,无须label信息。 聚类模型在实际中有很多应用的case,比如: 对用户或者消…
spark 常见用户问题
1、spark sql join中条件里面不能带有不确定值的表达式,例如case when,coalesce等 2、spark sql 中表的别名一定要唯一,hive是可以的,但是处于规范性要做到唯一性处理 3、启动sp…
What's New in Apache Spark 2.4
Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。 新的调度模型(Barrier Scheduling),使用户能够将分布式深…
Spark Hadoop 环境搭建
首先准备一台Linux环境的服务器,建议使用 VMware 或者 virtual box 来虚拟一台服务器,这对于新手来说比较适合,既能随时调整也能随时导出并迁移。 准备软件: Java环境, 下载链接,建议选择 1.7…
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十八):kafka0.10.1 内置性能测试API用法示例
消费者测试: ./kafka-consumer-perf-test.sh --zookeeper vm10.60.0.11.com.cn:2181,vm10.60.0.7.com.cn:2181,vm10.60.0.8.…
Hive:Spark中如何实现将rdd结果插入到hive1.3.0表中
DataFrame写入hive API: registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据,可以看出此函数不能指定数据库和分区等信息,不可以直接进行写入。 向hive…
Spark踩坑记——数据库(Hbase+Mysql)
目录 前言 Spark Streaming持久化设计模式 DStreams输出操作 使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作 填坑记录 Spark访问Mysq…
Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代价通常很高。第二步之…
spark-submit 提交任务及参数说明
spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1. 例子 一个最简单的例子,部署 spark standalone 模式后,提交到本地执…