[; \g \G] 都表示语句结束, ;和\g效果一样, \G可以使结果显示更美观 delimiter 结束符号 更改结束符 SET NAMES GBK; show database…
分类:Spark
Spark写入HBase(Bulk方式)
在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢? BulkLoad不会写WAL,也…
spark 与hadoop介绍
昨天有人问我spark是什么,和mapreduce,yarn,hadoop有什么区别和联系。今天饭毕就来絮叨絮叨这些东西。 第一个问题hadoop是什么?一句话,hadoop是大数据处理全家桶。其包括了hdfs(hado…
Spark 实践总结
公司组会上分享的笔记,做个备份,以后有了新的内容,也会添加到其中。 scala就是操作spark的语言,利用spark以及sparkSQL提供的api来操作HDFS中保存的各种数据。 之前的各种操作都是先通过spark.…
Java tomcat启动失败(Servlet3.0 Web Project):A child container failed during start
Tomcat启动失败,失败全部信息: 五月 11, 2016 10:21:04 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin 警告: [SetPro…
Spark2 Dataset之collect_set与collect_list
collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(‘,R…
python库--pandas--Series.str--字符串处理
目录 原数据 字符大小写转换 字符串拼接 字符填充/插入/扩展 字符串内容判断 查找 统计 转码 删减/截取 分割/替换 原数据 import pandas as pd a = pd.Series(['aSd', 'as…
Spark开发环境搭建
Spark的一些基本情况如下: Spark:一个java web框架 License:Apache License 服务器:Jettry jre版本:8 github地址:https://github.com/perwe…
利用Spark SQL实现轻量级用户数据查询
简介 当人们把越来越多的大数据存储在HDFS或者AWS的S3上,通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统,让用户使用SQL或者类SQL语言来查询数据,…
Spark RDD持久化级别
RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所…
《Spark指南》一、快速开始
本文主要翻译至链接且不局限于该文内容,也加入了笔者实践内容,翻译水平有限,欢迎指正,转载请注明出处。 本教程提供了使用Spark的快速介绍。 我们将首先通过Spark的交互式shell(在Python或Scala中)介绍…
Spark:Join相关优化文章
http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.…