最近在用一个算法做用户相关特征的提取,直接使用Java 调用Spark内置算法接口,进行数据的处理工作和特征提取,在本地测试正常,但是放到集群上面,总是跑到最后就提示各种错误,通道机一般报错界面如下: client to…
分类:Spark
OpenSpark:一款好用的开箱即用Spark环境
简介 你是否遇到过每次开发大数据应用都要重新搭建Java/Hadoop/Spark环境的情况?是否想过自学和测试Spark应用却没有功能完整稳定可用的集群环境?是否有过实验室提供了性能强大的物理机却要自己折腾Hadoop…
Spark学习笔记-使用Spark History Server
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark hi…
Spark 1.6升级2.x测试
最近准备升级将生产环境chd5.7.1升级到cdh5.12.0并同时升级spark1.6到spark2.2. 在cdh5.12.0中可以部署两个spark parcels.输入spark2-shell可以运行spark2…
spark1.6迁移到spark2.2实践和新特性初探
1. 前言 如果你没用过1.6版本的Spark,看这篇文章会很轻松,直接关心2.2版本的特性就好。 先简单介绍下Spark的几个重要模块 Spark SQL用于处理结构化数据,可以用SQL查询,可以读写HIVE表和HDF…
Spark(十二)--性能调优篇
一段程序只能完成功能是没有用的,只能能够稳定、高效率地运行才是生成环境所需要的。 本篇记录了Spark各个角度的调优技巧,以备不时之需。 一、配置参数的方式和观察性能的方式 额。。。从最基本的开始讲,可能一些刚接触Spa…
2019秋招 | 大数据的面经(头条、阿里、美团)
作者:Commando20180403011197链接:https://www.nowcoder.com/discuss/142963来源:牛客网 面的公司并不多。拿到了头条和阿里的意向书,如果不出意外应该就是这俩选一个…
那些年我们对Spark RDD的理解
铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办…
Spark
Spark 2.x管理与开发 ==========Spark Core========== 一、什么是Spark?(官网:http://spark.apache.org) 1、什么是Spark? 我的翻译:…
SPARK-SQL内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html 一、获取当前时间 1.current_date获取当前日期 2018-04-09 2.current_times…
计算机书籍下载
Python Cookbook 中文版,第 3 版 Python Cookbook 中文版,第 3 版 JavaScript设计模式与开发实践 JavaScript设计模式与开发实践 | pdf + epub + mob…
Spark RDD 编程指南中文版(一)
寄语:接下来的一段时间,我会将 Spark 的官方英文文档翻译成中文,发布在这个专栏,欢迎大家一起来交流学习 Spark。 你可以点击这个链接查看所有已翻译的内容: 曾革:Spark 中文文档目录汇总 Overview(…