标签：spark

kylin的构建引擎从mr换成spark

说明：由于线上业务kylin的cube越来越多，数据量随着时间也在增长，构建时间会托的越来越长（同时跑的任务越多，mr时间越长，所以对同时跑的mr数量，我们进行了…

1 Overview 之前我们组在生产环境上部署的是 Spark 2.2 on k8s 的那个 fork，部署在 K8S 上，至少需要一个 Dockerfile，最近有计划升级到 3.0.0 Snapshot 的分支代码…

大数据之数据清洗主要探讨路大数据中数据清洗时该从哪些维度发现需要进行清洗的数据，欢迎指正。假设案例：交通拥堵状况分析原始样本的关键属性：参与对象：机动车（包括私家车、大巴、公交、小货车、大型货车等）地理位置：经…

Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器（目前Spark支…

一. local 模式 — 所有程序都运行在一个JVM中，主要用于开发时测试无需开启任何服务，可直接运行 ./bin/run-example 或 ./bin/spark-…

笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。 1、——– 查 ——– — 1.1 行元素查询操作 — 像SQL那样打印列表前…

Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(ticket-granting ticket)访问多个服务，即SSO(S…

*表示后面会重复用到此参数创建层次化索引 pd.MultiIndex 构造器 MI levels 每个级别不重复的标签 labels 每个级别的整数指定每个位置 *sortorder=None …

本文主要研究Spark周边的知识，包括scala语言以及Spark本身。参考文章云栖社区。

搭建spark2.3.1 基于HDFS_onyarn搭建sparkHA 必须基于JDK1.8 下面是每台节点上配置的角色 node01 node02 node03 node04 node05 master(active)…

方案一： 1 //overwrite JdbcDialect fitting for Oracle 2 val OracleDialect = new JdbcDialect { 3 override def canHa…

一.输入文件类型设置为 CombineTextInputFormat hadoop job.setInputFormatClass(CombineTextInputFormat.class) sp…