hadoop – 如何在impala外部表中跳过文件头?

我有78 GB大小的HDFS文件

我需要在其上创建一个Impala外部表,以对可用数据执行某些分组和聚合

问题
该文件包含标题.


有没有办法在读取文件时跳过文件中的标题并查询其余数据.

虽然我有办法通过将文件复制到本地来解决问题然后删除标题,然后再次将更新的文件复制到HDFS,但这是不可行的,因为文件大小太大

如果有人有任何想法,请建议……

任何建议将不胜感激….

提前致谢

最佳答案 Hive / Impala中没有UPDATE或DELETE行操作.所以你应该将DELETE模拟为

>将数据文件加载到临时Hive / Impala表中
>在临时表上使用INSERT INTO或CREATE TABLE AS来创建require表

点赞