数据开发技术专家 1、负责基于Hadoop、Hive、HBase、Spark等开源计算平台的实施、优化和定制开发,研发稳定又易用的大数据平台。 2、根据公司产品和业务发展特点,研究相关的大数据产品和技术发展方向。 3、针…
标签:hadoop
Hadoop实验——Hive的安装和实验
实验目的 理解Hive在Hadoop体系结构中的角色。 熟悉Hive的DDL命令与DML操作。 区分数据仓库和数据库的概念。 实验平台 操作系统:Ubuntu-16.04 Hadoop版本:2.6.0 JDK版本:1.8…
搭建Hive数据仓库+python操作Hive
一、Hive安装及服务启动 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Ha…
HDFS
简述 HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式…
使用Sqoop从Postgresql中导入数据到Hive中
这里假定已经准备好了现成的Hadoop,Hive,Hbase,Zookeeper和一个postgresql数据库。 下载安装 从 http://mirror.bit.edu.cn/apache/sqoop/ 地址下载 s…
Hive体系架构
参考: Hive: 基于 Hadoop 的数据仓库工具 hive体系结构和执行流程 1、Hive产生背景 MapReduce编程的不便性 HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合) 2、H…
hadoop上搭建hive(远程模式+hive服务端、客户端)
环境 hadoop2.7.1+ubuntu 14.04 hive 2.0.1 集群环境 namenode节点:master (hive服务端) datanode 节点:slave1,slave2(hive客户端) hiv…
impala 概念及其特性
impala是什么? Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和…
[Hadoop踩坑]MapReduce的一个小实验(wordcount)
正文 大数据下,要解决的两大问题:数据量大,一台机器存不下?怎么办?把数据分开存,存到多台机器里,分布式存储。这么多数据,计算速度慢?怎么办?没事,一台机器计算慢,那就多台机器协同起来算。这就是分布式计算。 Hadoop…