TensorFlow训练时ResourceExhaustedError错误

问题描述

这两天在服务器训练TensorFlow时,时不时报出“tensorflow.python.framework.errors_impl.ResourceExhaustedError
”的错误信息,伴随有大量的其他log,搜了一下说是可能资源不足,查了一下显卡、内存资源发现都是够用的,很奇怪,过了一天再链接服务器训练发现又可以了,训练了一天又报出了相同错误。而且不单单是在已有模型基础上训练有这个错误,新建模型训练也会报同样的错误。

问题解决

后来突然想到,资源不够也可能是硬盘资源不足,查了一下发现真的是硬盘满了,潜意识里一直觉得服务器的硬盘资源是不用操心的,结果忽略了这个可能。。。

清除一些文件得到空间后,就可以继续正常的训练了。

查询服务器各个资源情况的命令:命令查看Linux服务器内存、CPU、显卡、硬盘使用情况

查看作者首页

    原文作者:Cloudox_
    原文地址: https://www.jianshu.com/p/34692f805753
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞