1.前提条件 电脑上已经安装了SSH,Homebrew,JDK8。 2.配置SSH无密码登录自己电脑 在终端执行以下命令: $ ssh localhost 如果需要输入密码登录,则执行以下命令: $ ssh-keygen…
标签:hadoop
hive 安装及操作
安装 元素数据存储选择 默认使用derby数据库,不能够多个用户同时使用,多用于测试 使用MySQL数据库存储元数据,多用于生产环境 HDFS数据仓库目录 创建数据仓库目录 hadoop fs -mkdir -p /us…
Mac下Hadoop的安装和启动
环境条件 JDK1.8 Hadoop 2.7.5 mac os Hadoop部署步骤 第一步 安装JDK 因为Hadoop是java写的开源框架,所以必须建立在Java的运行环境上。本篇采用的是JDK1.8 ,其实只要1…
Hadoop 2.7.3 源码编译+单机及分布式部署
我们可以选择官方编译好的Hadoop进行安装,但是自己机器或者公司内部其他版本的Hadoop最好通过自己编译来进行。 源码构建 环境: Ubuntu(Unix) Java 1.7+ Maven 3.0 or later …
hadoop解除safemode-安全模式
火山日常啰嗦 今天想删除hdfs上的某个目录时,总是报错,苦恼了很久才解决。 烦恼是一定会有的,但不能一直烦恼下去,因为问题总要解决的。后来我静下心,仔细查看日志中的错误信息,发现报的是这样的错误: org.apache…
hadoop序列化和反序列化
hadoop序列化和反序列化 1 什么是序列化和反序列化 序列化就是将内存中的对象或数据,转换成字节数组,以便于存储(持久化)和网络传输。 反序列化就是将字节数组转换成内存对象。 2 JDK中的序列化和反序列化 使用ja…
(二十九)IDEA开发Spark报错: Failed to locate the winutils binary in the hadoop binary path
18/09/18 10:23:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using built…
spark比hadoop快的原因
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 Sp…
hive cli启动判断hadoop version的问题
测试环境的hive cli启动时报错: 1 Unable to determine Hadoop version information. hive是一个shell: 使…
大数据Hadoop、Hive及Spark的内在联系
学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。 1.…
2018-04-17 大数据 spark
SPARK (Spark) 编辑 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H…
hdfs跨集群导数据+hive建表
/usr/hdp/2.6.1.0-129 修改本地host和集群一样 本地新建hdfs用户 切换到hdfs用户(必须),否则会报没有权限错误 hadoop distcp -D ipc.client.fallback-to…