如何在impala中计算多个数值字段的相关系数矩阵?

如下图。

《如何在impala中计算多个数值字段的相关系数矩阵?》 图片发自简书App

《如何在impala中计算多个数值字段的相关系数矩阵?》 图片发自简书App

这里有两个问题:

1. hive和spark都有corr函数,impala貌似没有,那怎么计算相关系数?难道只能套公式来计算?

2. hive和spark的corr函数貌似只支持两个字段,怎么计算多个字段的相关系数矩阵?难道要迭代n^2/2次来计算两两相关系数?

如果用PySpark或SparkR,可以在内存撑得住的情况下,把集群数据转化为单机数据,再用单机dataframe下的调包法解决。如果只有impala环境,这个问题该如何解决?是否无解?

    原文作者:真依然很拉风
    原文地址: https://www.jianshu.com/p/260fe8424075
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞