Spark加载PMML进行预测

2019年6月8日 317次阅读来源: AleZhang

背景：Spark由2.0.0升级至2.2.1，导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错

期望：将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1

解决：

旧版用法

spark-submit \
–class org.jpmml.spark.SparkPmmlWithHive \
–master yarn \
–queue queueName \
–deploy-mode client \
–jars /appcom/service/hive/lib/datanucleus-core-3.2.10.jar \
–files /appcom/config/hive/hive-site.xml \
${dir}/spark-pmml-1.0-SNAPSHOT.jar ${dir}/etl_lsvm-gxd-0.9.xml db.tbl_1 db.tbl_2

spark-pmml-1.0-SNAPSHOT.jar就是同事之前基于spark2.0.0开发的jar了，但是在我们Spark升级到2.2.1版本之后，就会开始报如下错误，导致调度作业报错。

Exception in thread “main” java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.CreateStruct.(Lscala/collection/Seq;)V at org.jpmml.spark.PMMLTransformer.transform(PMMLTransformer.java:149) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57) at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66) at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:186) at org.apache.spark.ml.PipelineModel.transform(Pipeline.scala:305) at org.jpmml.spark.SparkPmmlWithHive.main(SparkPmmlWithHive.java:25) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

这个错误的原因是因为在spark2.0.0里CreateStruct是一个class，但是在spark2.2.1(其实2.1.X就已经改了)中被定义为object

《Spark加载PMML进行预测》 Spark 2.0.0中对CreateStruct的定义

《Spark加载PMML进行预测》 Spark 2.1+中对CreateStruct的定义

根据https://github.com/jpmml/jpmml-evaluator-spark/issues/11这篇文章，已经有大神写了相应的升级版本了，把项目拉下来改改看能不能行

git clone https://github.com/sidfeiner/jpmml-spark.git

这拉取下来的代码是的spark版本是1.X的，因为我们改成2.2.1的，所以再根据这位大神的改改

《Spark加载PMML进行预测》打开的链接：https://github.com/sidfeiner/jpmml-spark/commit/cf897ed6efe585aad976357ece86081b94f17f75

打开的页面里，他已经把spark的版本升级到2.1.0这个可以解决CreateStruct重新被定义的问题，但是注意我要升级的是2.2.1这里有一点小差别就是PMMLTransformer类中用到的ScalaUDF函数2.1.0版本是接收四个参数的，但是在2.2.1中接收的是5个参数

如果用的是传的是4个参数的则会报错如下，因为服务器上已经是2.2.1版本了

java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.ScalaUDF.(Ljava/lang/Object;Lorg/apache/spark/sql/types/DataType;Lscala/collection/Seq;Lscala/collection/Seq;)V

《Spark加载PMML进行预测》第五个参数：None$.empty() -这个参数我困了好久，不知道填什么。。。

解决了这个问题基本就差不多了

cd jpmml-spark
mvn clean install

生成

pmml-spark/target/pmml-spark-1.0-SNAPSHOT.jar – Library JAR file.

pmml-spark-example/target/example-1.0-SNAPSHOT.jar – Example application JAR file.

其中example-1.0-SNAPSHOT.jar就是我们要的jar,重命名spark-pmml-2.0.jar替换同事的旧版本jar包即可。

代码：

参考：

https://github.com/jpmml/jpmml-evaluator-spark

https://github.com/jpmml/jpmml-evaluator-spark/issues/11

https://github.com/sidfeiner/jpmml-spark

    原文作者：AleZhang
    原文地址: https://www.jianshu.com/p/138b4993cbce
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。