Flume的三大核心组件

2024年4月13日 166次阅读来源: 简单随风

Flume的三大核心组件:

接下来具体看一下这三大核心组件都是干什么的

Source

Source: 数据源:通过source组件可以指定让Flume读取哪里的数据，然后将数据传递给后面的 channel
Flume内置支持读取很多种数据源，基于文件、基于目录、基于TCP\UDP端口、基于HTTP、Kafka的等等、当然了，如果这里面没有你喜欢的，他也是支持自定义的

在这我们挑几个常用的看一下:

前面我们分析的这几个source组件，其中execsource 和 kafkasource在实际工作中是最常见的，可以满足大部分的数据采集需求。

channel

Channel: 接受Source发出的数据，可以把channel理解为一个临时存储数据的管道
Channel的类型有很多:内存、文件，内存+文件、JDBC等

接下来我们来分析一下:

Memory Channel:使用内存作为数据的存储
优点是效率高，因为就不涉及磁盘IO
缺点有两个
1:可能会丢数据，如果Flume的agent挂了，那么channel中的数据就丢失了。
2:内存是有限的，会存在内存不够用的情况
File Channel:使用文件来作为数据的存储
优点是数据不会丢失缺点是效率相对内存来说会有点慢，但是这个慢并没有我们想象中的那么慢，所以这个也是比较常用的一种channel。
Spillable Memory Channel:使用内存和文件作为数据存储，即先把数据存到内存中，如果内存中数据达到阈值再flush到文件中
优点:解决了内存不够用的问题。
缺点:还是存在数据丢失的风险

sink

Sink:从Channel中读取数据并存储到指定目的地
Sink的表现形式有很多:打印到控制台、HDFS、Kafka等，

注意:Channel中的数据直到进入目的地才会被删除，当Sink写入目的地失败后，可以自动重写，不会造成数据丢失，这块是有一个事务保证的。

常用的sink组件有:

    原文作者：简单随风
    原文地址: https://blog.csdn.net/lt326030434/article/details/118926483
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。