标签：spark

SparkSQL一行转多行一列变多列多行转一行

项目开发中有这样的需求，原始数据如下： +--------+-----------+ | name| message| +--------+-----------+ |zhangsan| 4=18,33=78| | li…

pandas.DataFrame.to_csv 参数说明 path_or_buf=None 文件路径或对象, 若果为None, 则结果作为字符串返回 sep=’,’ 分隔符 na_rep=…

异常问题：Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; …

spark中有partition的概念（和slice是同一个概念，在spark1.2中官网已经做出了说明），一般每个partition对应一个task。在我的测试过程中，如果没有设置spark.default.paral…

在spark1上操作 1. 安装Hadoop $ cd /usr/local $ tar -zxvf hadoop-2.4.1.tar.gz $ mv hadoop-2.4.1 hadoop $ vi ~/.bashrc…

jdk-8u73-linux-x64.tar.gz hadoop-2.6.0.tar.gz scala-2.10.6.tgz spark-1.6.0-bin-hadoop2.6.tgz 1.安装jdk 解压jdk安装包到…

spark on yarn任务提交缓慢解决 spark版本：spark-2.0.0 hadoop 2.7.2。在spark on yarn 模式执行任务提交，发现特别慢，要等待几分钟，使用集群模式模式提交任务： ./…

性能调优之在实际项目中分配更多资源性能调优的王道，增加和分配更多的资源，性能和速度上的调优，是显而易见的，基本上在一定范围内，增加资源与性能的提升，是成正比的，写完一个spark作业以后，进行性能调优。 1.分配那些…

性能调优相关的原理讲解、经验总结；掌握一整套Spark企业级性能调优解决方案；而不只是简单的一些性能调优技巧。针对写好的spark作业，实施一整套数据倾斜解决方案：实际经验中积累的数据倾斜现象的表现，以及处理后的效果…

方法返回值类型参数说明张量 .constant() Tensort 张量实例t value 创建一个常量tensor dtype=None 输出类型 shape…

① Application Properties 应用基本属性 spark.driver.cores driver端分配的核数，默认为1，thriftserver是启动thriftserver服务的机器，资源充足的话可以…

将DataFrame写成文件方法有很多最简单的将DataFrame转换成RDD，通过saveASTextFile进行保存但是这个方法存在一些局限性：1.将DataFrame转换成RDD或导致数据结构的改变2.RDD的sa…