标签：spark

Spark on yarn遇到的问题

1. spark提交后一直循环accepted spark on yarn提交任务时一直显示ACCEPTED，过一个小时后就会出现任务失败，但在提交时shell终端显示的日志并没有报错，logs文件夹中也没有日志产生。注…

问题：在yarn集群上训练Word2Vec模型数据保存在hadfs上的报错： w2cModel.write.overwrite.save(path) ERROR datasources.FileFormatWriter…

翻译： https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_running_spark_apps.html 版本： 5.14.2 …

Spark-Sql的参数调优：官网： http://spark.apache.org/docs/latest/sql-programming-guide.html 缓存表参考：https://blog.csdn.ne…

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计…

这是一篇spark环境的安装文档，不知道为什么查了下网上的安装步骤总是感觉怪怪的，有把环境变量配置到spark-env.sh的，有配置了yarn然后启动spark-standalone服务的，虽然不能保证我的方法是最标准…

Spark集群硬件配置参考标签（空格分隔）： Spark Hardware Provisioning A common question received by Spark developers is how to c…

Spark 向Spark1.6开炮：问题总结与踩坑： http://www.tuicool.com/articles/2U36Zb Spark Summit 2017 2月份: https://spark-summit.…

Spark自定义聚合函数时，需要实现UserDefinedAggregateFunction中8个方法： inputSchema：输入的数据类型 bufferSchema：中间聚合处理时，需要处理的数据类型 dataTy…

背景项 pandas spark 工作方式单机，无法处理大量数据分布式，能处理大量数据存储方式单机缓存可以调用 persist/cache 分布式缓存是否可变是否 index索引自动创建无索引行结…

Spark Streaming 非常适合ETL。但是其开发模块化程度不高，所以这里提供了一套方案，该方案提供了新的API用于开发Spark Streaming程序，同时也实现了模块化，配置化，并且支持SQL做数据处理。 …

本地环境IDEA, 但把Jar包上传到Spark集群的时候, Job会失败. 错误信息 2017-03-29 18:12:48,190 ERROR [Driver] yarn.ApplicationMaster (Log…