分类：Spark

MySQL

[; \g \G] 都表示语句结束, ;和\g效果一样, \G可以使结果显示更美观 delimiter 结束符号更改结束符 SET NAMES GBK; show database…

在使用Spark时经常需要把数据落入HBase中，如果使用普通的Java API，写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢？ BulkLoad不会写WAL，也…

昨天有人问我spark是什么，和mapreduce，yarn，hadoop有什么区别和联系。今天饭毕就来絮叨絮叨这些东西。第一个问题hadoop是什么？一句话，hadoop是大数据处理全家桶。其包括了hdfs（hado…

公司组会上分享的笔记，做个备份，以后有了新的内容，也会添加到其中。 scala就是操作spark的语言，利用spark以及sparkSQL提供的api来操作HDFS中保存的各种数据。之前的各种操作都是先通过spark.…

Tomcat启动失败,失败全部信息：五月 11, 2016 10:21:04 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin 警告: [SetPro…

collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(‘,R…

目录原数据字符大小写转换字符串拼接字符填充/插入/扩展字符串内容判断查找统计转码删减/截取分割/替换原数据 import pandas as pd a = pd.Series(['aSd', 'as…

Spark的一些基本情况如下： Spark：一个java web框架 License：Apache License 服务器：Jettry jre版本：8 github地址：https://github.com/perwe…

简介当人们把越来越多的大数据存储在HDFS或者AWS的S3上，通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统，让用户使用SQL或者类SQL语言来查询数据，…

RDD持久化用于RDD重用和节省重新计算，方便构建迭代算法，缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式，将数据保存在内存中。如果内存不够存放所…

本文主要翻译至链接且不局限于该文内容，也加入了笔者实践内容，翻译水平有限，欢迎指正，转载请注明出处。本教程提供了使用Spark的快速介绍。我们将首先通过Spark的交互式shell（在Python或Scala中）介绍…

http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.…