文本文件数据编码
csv 逗号分割值
tsv 制表符tab分割值
hive默认是文本文件格式,默认的字段分隔符是^A,行分隔符是\n,可以指定
row format delimited
fileds terminated by ','
lines terminated by '\n'
stored as textfile
可以简单地视为csv格式
二进制格式
stored as avro…seqencefile…parquet…orc
面向行的文件:avro seqencefile (可分割 可压缩)
面向列的文件:rcfile parquet orc
特点
hive是读时模式,不对数据控制
如果读取到的字段个数少,则使用null值填充,另如果类型不匹配时也会返回null。