我有78 GB大小的HDFS文件
我需要在其上创建一个Impala外部表,以对可用数据执行某些分组和聚合
问题
该文件包含标题.
题
有没有办法在读取文件时跳过文件中的标题并查询其余数据.
虽然我有办法通过将文件复制到本地来解决问题然后删除标题,然后再次将更新的文件复制到HDFS,但这是不可行的,因为文件大小太大
如果有人有任何想法,请建议……
任何建议将不胜感激….
提前致谢
最佳答案 Hive / Impala中没有UPDATE或DELETE行操作.所以你应该将DELETE模拟为
>将数据文件加载到临时Hive / Impala表中
>在临时表上使用INSERT INTO或CREATE TABLE AS来创建require表