我正在使用LBFGS逻辑回归将示例分类为两个类别之一.什么时候,我正在训练模型,我收到很多这样的警告 –
WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
我有大约94个功能和大约7500个训练样例.为了将任务大小分解成更小的块,是否还应该传递一些其他参数?
另外,这只是一个警告,在最坏的情况下可以忽略吗?还是会妨碍培训?
我这样称呼我的教练 –
val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2)
lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations)
val model = lr_lbfgs.run(trainingData)
另外,我的驱动程序和执行程序内存是20G,我将其设置为spark-submit的参数
最佳答案 Spark
sends a copy的每个变量和方法都需要对执行者可见;此警告意味着这些对象总共超过100 KB.如果它不会显着影响性能,您可以放心地忽略此警告,或者您可以考虑将某些变量标记为
broadcast variables.