rdd.countByValue
dfNotNull.map(_.getAs[String]("allSixId")).filter(_.startsWith("advertising_id_s")).countByValue.toList.filter(_._2 > 1).sortBy(_._2).foreach(println)
rdd.countByValue
dfNotNull.map(_.getAs[String]("allSixId")).filter(_.startsWith("advertising_id_s")).countByValue.toList.filter(_._2 > 1).sortBy(_._2).foreach(println)