一: Flume是什么: 1. 有Cloudera公司开源 2. 分布式,可靠,高可用的海量日志采集系统; 3. 数据源可定制,可扩展; 4. 数据存储系统可定制,可扩展; 5. 中间件,屏蔽了数据源和数据存储之间的耦合…
标签:数据源
presto简介
背景 MapReduce不能满足大数据快速实时adhoc查询计算的性能要求,Facebook2012年开发,2013年开源 是什么 基于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎 多个节点管道式执行…
Spark生态圈
scala,spark的学习门槛还是较高的,scala应该算是我学过的语言中觉得最难的一种了吧(除了英语..)..心蛮类的,总结下经验,希望能够帮助更多小伙伴少走一些弯路吧! Spark生态圈的五大组件:Spark Co…
利用 Spark DataSource API 实现Rest数据源
Spark DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介…
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
Spark入门实战系列–7.Spark Streaming(上)–实时流计算Spark Streaming原理介绍 – shishanyuan – 博客园 http://w…
7.Spark数据读取与保存
1. 常见数据源 文件格式与文件系统 对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFi…
Spark SQL Data Sources API
Spark无疑是目前大数据处理分析事实标准,而且已经具备了一个平台的潜质,何为平台,平台是且仅仅是app应用的容器或者内容的托管方,从这个视角看iOS/android是平台;简书微信也是平台;平台不提供内容…
SpringBoot+MyBatis+MySQL读写分离(实例)
1. 引言 读写分离要做的事情就是对于一条SQL该选择哪个数据库去执行,至于谁来做选择数据库这件事儿,无非两个,要么中间件帮我们做,要么程序自己做。因此,一般来讲,读写分离有两种实现方式。第一种是依靠中间件(比如:MyC…
select的本质
select [all/distinct] 目标列表达式 from 视图/表名 as 别名 where 条件表达式 group by 分组 having 条件表达式 order by 列名 asc/desc 注: ①fr…
什么是数据仓库?
什么时候需要用到数据仓库? 一个公司里面不同项目可能用到不同的数据源,有的存在MySQL里面,又的存在MongoDB里面,甚至还有些要做第三方数据。 但是现在又想把数据整合起来,进行数据分析。此时数据仓库(Data Wa…
如何一键获取数百万外卖商家数据-饿了么和美团外卖商家数据采集
本文主要介绍神箭手“外卖商家”数据源的使用方法,以及数据获取、发布及导出过程中可能出现的问题。 近年来,由于居民人均可支配收入的提升、工作生活节奏的加快、人们用餐习惯的改变和餐饮行业的深度互联网化等因素,外卖得以飞速发展…
React Native fetch获取网络数据
前言 构建项目 关于构建RN项目的环境,具体怎么做请参照#搭建开发环境 – React Native中文网 新建项目 可以选择git clone一个空项目或者在react native的项目目录下执行: re…