分类：Spark

Spark与缓存

预期成果 1.1 当前问题当前以图搜图应用存在的问题：当前使用spark RDD方案无法达到数据实时加载（每10分钟加载一次，虽然可配，但太短可能会有问题） Spark RDD内存会被分为两部…

aggregateByKey 这个RDD有点繁琐，整理一下使用示例，供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark.{Sp…

Spark-shell有两种使用方式： 1：直接Spark-shell 会启动一个SparkSubmit进程来模拟Spark运行环境，是一个单机版的。 2：Spark-shell –master Spark：…

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最…

个人笔记,问题较多符号说明 [] 表示其中内容可以没有 su [root] 获取root权限 vi /etc/sudoers 1.点击I或Insert获得插入权限 2.在root ALL=(ALL) ALL行后面添加:…

直接上代码，详见注释 import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkContext, SparkConf} /** …

产生问题原因：环境hadoop2，cdh5创建使用hadoop fs -mdkir /use/xxx创建文件路径时，出现权限问题前提我们已经把当前用户zhangsan和root放到/etc/suders中。 su …

说明：由于线上业务kylin的cube越来越多，数据量随着时间也在增长，构建时间会托的越来越长（同时跑的任务越多，mr时间越长，所以对同时跑的mr数量，我们进行了…

1 Overview 之前我们组在生产环境上部署的是 Spark 2.2 on k8s 的那个 fork，部署在 K8S 上，至少需要一个 Dockerfile，最近有计划升级到 3.0.0 Snapshot 的分支代码…

大数据之数据清洗主要探讨路大数据中数据清洗时该从哪些维度发现需要进行清洗的数据，欢迎指正。假设案例：交通拥堵状况分析原始样本的关键属性：参与对象：机动车（包括私家车、大巴、公交、小货车、大型货车等）地理位置：经…

Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器（目前Spark支…

一. local 模式 — 所有程序都运行在一个JVM中，主要用于开发时测试无需开启任何服务，可直接运行 ./bin/run-example 或 ./bin/spark-…