问题描述
这两天在服务器训练TensorFlow时,时不时报出“tensorflow.python.framework.errors_impl.ResourceExhaustedError
”的错误信息,伴随有大量的其他log,搜了一下说是可能资源不足,查了一下显卡、内存资源发现都是够用的,很奇怪,过了一天再链接服务器训练发现又可以了,训练了一天又报出了相同错误。而且不单单是在已有模型基础上训练有这个错误,新建模型训练也会报同样的错误。
问题解决
后来突然想到,资源不够也可能是硬盘资源不足,查了一下发现真的是硬盘满了,潜意识里一直觉得服务器的硬盘资源是不用操心的,结果忽略了这个可能。。。
清除一些文件得到空间后,就可以继续正常的训练了。
查询服务器各个资源情况的命令:命令查看Linux服务器内存、CPU、显卡、硬盘使用情况