我知道distcp用于数据的帧间/内部群集传输.是否可以使用distcp将数据从本地文件系统提取到HDFS.我知道你可以使用file:/// ….
指向HDFS之外的本地文件,但与内部/内部群集传输相比,它是多么可靠和快速. 最佳答案 Distcp是在hadoop集群内执行的mapreduce作业.对于hadoop cluster透视图,本地计算机不是本地文件系统.然后你不能使用你的本地文件系统与distcp.另一种方法是在机器中配置hadoop集群可以读取的FTP服务器.性能取决于网络和使用的协议(带有hadoop的ftp性能非常差).
使用hdfs dfs -put命令对于少量数据可能更好,但它不像distcp那样并行工作.