apache-spark – 火花任务规模太大了

我正在使用LBFGS逻辑回归将示例分类为两个类别之一.什么时候,我正在训练模型,我收到很多这样的警告 –

WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.

我有大约94个功能和大约7500个训练样例.为了将任务大小分解成更小的块,是否还应该传递一些其他参数?

另外,这只是一个警告,在最坏的情况下可以忽略吗?还是会妨碍培训?

我这样称呼我的教练 –

val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2)
lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations)
val model = lr_lbfgs.run(trainingData)

另外,我的驱动程序和执行程序内存是20G,我将其设置为spark-submit的参数

最佳答案 Spark
sends a copy的每个变量和方法都需要对执行者可见;此警告意味着这些对象总共超过100 KB.如果它不会显着影响性能,您可以放心地忽略此警告,或者您可以考虑将某些变量标记为
broadcast variables.

点赞