大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data. analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提…
分类:Hive
Spark读取hive数据文件
spark 操作 hive[删除分区表] 1: 使用HiveServer 的方式 val tablename=”hive_tablename” def dropPartitions(tablena…
hive 创建数据表失败
之前根据网上相关教程搭建hive,一直没什么问题,最近新搭建 hive服务时出现了无法创建数据表的问题,从日志中发现报了一个,无法找到/user问题,正常情况下创建一张数据表的时候会在hdfs中创建一个/user/hiv…
HiveServer2 HA模型部署测试
配置zookeeper,启动多个HiveServer 配置HA Zookeeper信息如下: <property> <name>hive.server2.transport.mode</na…
Elasticsearch、MongoDB和Hadoop比较
Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智…
Sqoop增量导入与数据去重
sqoop是可以配置job自动运行的,能自动记录上次同步的时间,不过如果任务失败就不方便重跑了(这方面经验不足)。 目前的做法是手动去配置一个固定的同步周期和–last-modify值,这样一来就可能有数据重…
阿里橙鹰
数据开发技术专家 1、负责基于Hadoop、Hive、HBase、Spark等开源计算平台的实施、优化和定制开发,研发稳定又易用的大数据平台。 2、根据公司产品和业务发展特点,研究相关的大数据产品和技术发展方向。 3、针…
Hive2.1.1集群搭建
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 </br> 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为cent…
[译]Hive学习指南(五)
动态分区插入 前面的示例中,用户必须知道对哪个分区插入数据,并且一条insert语句只能插入一个分区。如果想要加载到多个分区,需要使用多条insert语句,如下: FROM page_view_stg pvs INSER…
Hive内部表和外部表的区别详解
Hive内部表和外部表的区别详解 – CSDN博客 1.内部表 create tabletest (name string , age string) location ‘/input/table…
启动hiveserver2失败问题
问题: 使用 hiveserver2 start启动,beeline连接失败,命令:!connect jdbc:hive2:/xxxx:10000 解决办法: 该账户并没有权限,使用有权限的用户启动,比喻:sudo -u…
干货!Hadoop学习资源合辑
作者:IT程序狮 原文地址:http://www.jianshu.com/p/4a23fa85d64e 说到大数据,不得不提Hadoop系统,这个系统也已经超过十年的历史了。程小狮曾以为大数据就是Hadoop系统,请原谅…