标签：hadoop

Hadoop在YARN上的伪分布式安装(Mac)

1.前提条件电脑上已经安装了SSH，Homebrew，JDK8。 2.配置SSH无密码登录自己电脑在终端执行以下命令： $ ssh localhost 如果需要输入密码登录，则执行以下命令： $ ssh-keygen…

安装元素数据存储选择默认使用derby数据库，不能够多个用户同时使用，多用于测试使用MySQL数据库存储元数据，多用于生产环境 HDFS数据仓库目录创建数据仓库目录 hadoop fs -mkdir -p /us…

环境条件 JDK1.8 Hadoop 2.7.5 mac os Hadoop部署步骤第一步安装JDK 因为Hadoop是java写的开源框架，所以必须建立在Java的运行环境上。本篇采用的是JDK1.8 ，其实只要1…

我们可以选择官方编译好的Hadoop进行安装，但是自己机器或者公司内部其他版本的Hadoop最好通过自己编译来进行。源码构建环境： Ubuntu(Unix) Java 1.7+ Maven 3.0 or later …

火山日常啰嗦今天想删除hdfs上的某个目录时，总是报错，苦恼了很久才解决。烦恼是一定会有的，但不能一直烦恼下去，因为问题总要解决的。后来我静下心，仔细查看日志中的错误信息，发现报的是这样的错误： org.apache…

hadoop序列化和反序列化 1 什么是序列化和反序列化序列化就是将内存中的对象或数据，转换成字节数组，以便于存储（持久化）和网络传输。反序列化就是将字节数组转换成内存对象。 2 JDK中的序列化和反序列化使用ja…

18/09/18 10:23:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using built…

Spark SQL比Hadoop Hive快，是有一定条件的，而且不是Spark SQL的引擎比Hive的引擎快，相反，Hive的HQL引擎还比Spark SQL的引擎更快。其实，关键还是在于Spark 本身快。 Sp…

测试环境的hive cli启动时报错： 1 Unable to determine Hadoop version information. hive是一个shell: 使…

学习大数据不可避免地会用到Hadoop、Hive、Spark等内容，也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具，归根结底还是要面向大数据的四个核心问题。 1.…

SPARK （Spark）编辑 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H…

/usr/hdp/2.6.1.0-129 修改本地host和集群一样本地新建hdfs用户切换到hdfs用户（必须），否则会报没有权限错误 hadoop distcp -D ipc.client.fallback-to…