分类：Hive

大数据开发需要学习哪些技术？

大数据开发其实分两种，第一类是编写一些Hadoop、Spark的应用程序，第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data. analyst这种职位吧，而且现在Hive Spark-SQL这种系统也提…

spark 操作 hive[删除分区表] 1：使用HiveServer 的方式 val tablename=”hive_tablename” def dropPartitions(tablena…

之前根据网上相关教程搭建hive，一直没什么问题，最近新搭建 hive服务时出现了无法创建数据表的问题，从日志中发现报了一个,无法找到/user问题，正常情况下创建一张数据表的时候会在hdfs中创建一个/user/hiv…

配置zookeeper，启动多个HiveServer 配置HA Zookeeper信息如下： <property> <name>hive.server2.transport.mode</na…

Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist，致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标，带领团队快速成长为人工智…

sqoop是可以配置job自动运行的，能自动记录上次同步的时间，不过如果任务失败就不方便重跑了（这方面经验不足）。目前的做法是手动去配置一个固定的同步周期和–last-modify值，这样一来就可能有数据重…

数据开发技术专家 1、负责基于Hadoop、Hive、HBase、Spark等开源计算平台的实施、优化和定制开发，研发稳定又易用的大数据平台。 2、根据公司产品和业务发展特点，研究相关的大数据产品和技术发展方向。 3、针…

软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 </br> 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为cent…

动态分区插入前面的示例中，用户必须知道对哪个分区插入数据，并且一条insert语句只能插入一个分区。如果想要加载到多个分区，需要使用多条insert语句，如下： FROM page_view_stg pvs INSER…

Hive内部表和外部表的区别详解 – CSDN博客 1.内部表 create tabletest (name string , age string) location ‘/input/table…

问题：使用 hiveserver2 start启动，beeline连接失败，命令：!connect jdbc:hive2:/xxxx:10000 解决办法：该账户并没有权限，使用有权限的用户启动，比喻：sudo -u…

作者：IT程序狮原文地址：http://www.jianshu.com/p/4a23fa85d64e 说到大数据，不得不提Hadoop系统，这个系统也已经超过十年的历史了。程小狮曾以为大数据就是Hadoop系统，请原谅…