标签：hadoop

使用 hadoop streaming 编程的几点经验和教训

hadoop streaming 是 hadoop 的一个多语言编程框架。关于 streaming 的使用方法可以参见 streaming 的官方文档。一些比较高级的用法，例如加载词典，使用计数器等，也可以在网上找到答案…

cloudera CDH 禁用 kerberos 环境信息操作系统系统:Centos7 JDK:1.7 CDH 版本:5.8.4 1,停止集群 2,修改参数 Zookeeper: enableSecurity (Ena…

与这里演示的相比，“HADOOP_HOME/bin/hadoop fs -help命令名将显示有关操作的简短使用摘要。所有操作的表如下所示。参数使用以下约定: "<path>" means an…

1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。 kudu的使用场景： Strong…

最佳的复制一个partitioned表的步骤：创建新的目标，跟旧表一样的schema. 如： create table new_xx like xx; 使用 hadoop fs -cp 把旧表所有的分区文件，拷贝到目标…

在写spark代码的时候，经常会遇到文件夹路径存在的情况，一般有以下的解决方式 1.在shell脚本中直接调用hadoop fs -rm path 2.通过设置可直接覆盖文件路径，此方法我没有测试 yourSparkC…

修改hdp的yarn配置登陆到Ambari找到’Ambari -> YARN -> configs’的’Advanced’页面找到页面底部的 ‘…

Hadoop HA 配置完成后，确实NameNode的稳定性得到了保障，不过，问题接踵而来，那就是NameNode压力过大。随着数据的越来越多，NameNode的压力越来越大，timeout出现的概率越来越多，如果能够…

最近实验室要搭一个高可用的Hadoop高可用集群，我先在虚拟机上搭了一个软件版本 1. OS: ubuntu server 16.04 2. jdk 1.7.80 3. Hadoop 2.6.5 4. zookeep…

我有78 GB大小的HDFS文件我需要在其上创建一个Impala外部表,以对可用数据执行某些分组和聚合问题该文件包含标题. 题有没有办法在读取文件时跳过文件中的标题并查询其余数据. 虽然我有办法通过将文件复制到本地来…

在Hadoop环境搭建中，我们配置多个DataNode保证了DataNode的高可用，但是NameNode是单点的，在生产环境存在风险。接下来配置Hadoop的高可用，其实就是NameNode的高可用。配置文件修改 c…

前置知识：Linux用户管理，Linux文件权限管理，文件打包与解压，SQL语句 Step1 熟悉工作室软件环境 Step2 VirtualBox使用&启动vimtutor Step3 熟悉云平台的使用 Step…