R doParallel foreach与独立工作者的错误处理

我必须运行很多随机的森林模型,所以我想在我的服务器上使用8个核心的doParallel来加速这个过程.

然而,有些模型比其他模型需要更长的时间,甚至可能会抛出错误.我想并行运行8个模型,如果模型抛出错误和/或被跳过,那么工人应该继续.每个模型结果都保存在硬盘驱动器上,以便我以后可以访问和组合它们.

TryCatch

要么

.errorhandling="remove" 

没有解决问题.我明白了

 Error in unserialize(socklist[[n]]) : error reading from connection

代码示例:我尝试使用%do%并且模型2-7成功运行.然而在%dopar%我得到显示的错误

 foreach(model=1:8, .errorhandling="remove") %dopar% {


      tryCatch({
          outl <- rf_perform(...)
          saveRDS(outl,file=getwd() %+% "/temp/result_" %+% model %+% ".rds")

     }, error = function(e) {print(e)}, finally = {})
  }

最佳答案 我想我发现了问题:如果你导出到群集的对象太大,R不能再处理它和/或有一个超时

我的数据对象导出是500万行和300个变量,导出到16个集群.

cl <- makeCluster(16)
registerDoParallel(cl)
clusterExport(cl, "data")

#data must not be too large

我将对象缩小为小块,现在可以正常工作了.作者可能想在doParallel的文档中提及如果对象太大则抛出警告.

点赞