标签：spark

HBase读写的几种方式（二）spark篇

1. HBase读写的方式概况主要分为：纯Java API读写HBase的方式； Spark读写HBase的方式； Flink读写HBase的方式； HBase通过Phoenix读写的方式；第一种方式是H…

1. 下载Spark 1.1 官网下载Spark http://spark.apache.org/downloads.html 打开上述链接，进入到下图，点击红框下载Spark-2.2.0-bin-hadoo…

Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (DStreams) I…

1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎…

Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器（目前Spark支…

本章导读机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为，以获取新知识、新技能，并重组已学习的…

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apa…

SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler, 具体配置参见…

#构造case class，利用反射机制隐式转换 scala> import spark.implicits._ scala> val rdd= sc.textFile("input/textdata.txt…

spark-shell不支持yarn cluster，以yarn client方式启动 spark-shell --master=yarn --deploy-mode=client 启动日志，错误信息如下 …

>>提君博客原创 http://www.cnblogs.com/tijun/ << 假定线性拟合方程：提君博客原创变量 Xi 是 i 个…

spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为 RDD 的一个元素。也可以将多个完整的文本文件一次性读取…