深度学习领域用到的数据集动辄几十上百G,在服务器上传和下载都不太方便,可以利用tar、split和cat命令将大的数据集文件切分为多个分卷,再进行下载或上传,然后再组装解压进行恢复:
切分压缩:这里用到了两个命令:tar和split,分别实现文件压缩和文件切割
tar czf - train.zip | split -b 6000m - train.tar.gz #将训练集切分为大小为6000M的多个分卷
解压恢复:这里也用到了两个命令:cat和tar,分别实现分卷组合和解压缩。
cat train.tar.gz* | tar -xzv