标签：数据

hive迷案之数据异常

hive运行一个查询，可能会由于各种原因失败，但不应该出现执行成功，但数据结果不正确。同样的sql查询，同样的数据，却出现了某一次查询，没有报错，但数据异常，且只此一次，再也无法重现了。经过几天的排查，终于找到了原因。 …

1. 外部表（external table）有external修饰，表数据保存在HDFS上，该位置由用户指定。删除表时，只会删除表的元数据，所以外部表不是有Hive完全管理的 2. 内部表(internal table…

第5章 HiveQL数据操作在上一章中介绍了HiveQL的数据定义部分，所谓数据定义就是对数据库中表结构的增删改查；而数据操作则是关注对数据库中表的数据的操作，即如何装载数据到表中，如何从这些表中查询想要的数据。对于其…

Hive 数据导入HBase的2种方法详解 – 王建奎Jerrick的个人页面 – 开源中国社区 https://my.oschina.net/wangjiankui/blog/497658 Hi…

1 hive表关联查询，如何解决数据倾斜的问题? 倾斜原因： map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。…

背景大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python…

火山日常啰嗦学习了一些大数据的相关框架后，发现应用层的东西确实不难，真正难的都是底层原理，所以我查看了很多资料，借鉴了前人的方法再加上自己的理解，写下了这篇文章。数据倾斜的直白概念：数据倾斜就是数据的分布不平衡，某…

hive简单认识 Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。 Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存…

数据倾斜的问题 [toc] 转载：大数据常见问题之数据倾斜数据倾斜简介 1 什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度…

分区 • 建立分区表 • 增加分区 • 重命名分区 • 删除分区 hive组织表到分区。它是将一个表到基于分区列，如日期，城市和部门的值相关方式。使用分区，很容易对数据进行部分查询。表或分区可以细分成桶，以提供额外的结…

传统数仓传统数仓有几个特点：数据具有历史性基于文件存储以表为形态，自带元数据存储（比如Hive）在数仓的数据是其他数据的拷贝或者拷贝的加工传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以…

如何快速地将Hive中的数据导入ClickHouse image ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前…