分类：Spark

Spark新愿景：让深度学习变得更加易于使用

前言 Spark成功的实现了当年的承诺，让数据处理变得更容易，现在，雄心勃勃的Databricks公司展开了一个新的愿景：让深度学习变得更容易。当然牛好吹，也是要做些实际行动的，所有便有了spark-deep-lear…

基础环境 vi /etc/hosts 192.168.74.10 host196 192.168.74.29 host197 192.168.74.30 host198 安装jdk,zookeeper,hadoop 安装…

今天将代码以Spark On Yarn Cluster的方式提交,遇到了很多很多问题.特地记录一下. 代码通过--master yarn-client提交是没有问题的,但是通过--master yarn-cluster总…

构建聚类模型在Machine Learning领域中，我们常会遇到聚类模型这个概念，和分类与回归模型不同，聚类model是属于无监督模型，无须label信息。聚类模型在实际中有很多应用的case，比如：对用户或者消…

1、spark sql join中条件里面不能带有不确定值的表达式，例如case when,coalesce等 2、spark sql 中表的别名一定要唯一，hive是可以的，但是处于规范性要做到唯一性处理 3、启动sp…

Apache Spark 2.4 版本是 2.x 系列的第五个版本。本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型（Barrier Scheduling），使用户能够将分布式深…

首先准备一台Linux环境的服务器，建议使用 VMware 或者 virtual box 来虚拟一台服务器，这对于新手来说比较适合，既能随时调整也能随时导出并迁移。准备软件： Java环境, 下载链接，建议选择 1.7…

消费者测试： ./kafka-consumer-perf-test.sh --zookeeper vm10.60.0.11.com.cn:2181,vm10.60.0.7.com.cn:2181,vm10.60.0.8.…

DataFrame写入hive API： registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据，可以看出此函数不能指定数据库和分区等信息，不可以直接进行写入。向hive…

目录前言 Spark Streaming持久化设计模式 DStreams输出操作使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作填坑记录 Spark访问Mysq…

给定交易数据集，FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同，FP增长的第二步使用后缀树（FP-tree）结构来编码事务，而不会显式生成候选集，生成的代价通常很高。第二步之…

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。 1. 例子一个最简单的例子，部署 spark standalone 模式后，提交到本地执…