[翻译]Spark Struct Streaming设计文档

2023年11月18日 303次阅读来源: 分裂四人组

介绍

通过过去三年里部署、运维Spark Streaming的积累，我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。

我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至Struct Streaming上。

工作原理：

逻辑上，每一个stream为append-only table（比如DataFrame），该表中记录可以以任意顺序到达
就像传统的SQL/DataFrame一样，用户可以定义queries在整张表上，同时返回一个新的表；当到达processing time时，开始执行该queries;
用户可以设定trigger来确定何时运行查询以及输出，当然，这些都是基于processing time；系统会尽快地满足该条件(as soon as possible)；
最终，用户为每一个查询设置output mode，包括如下：
- Delta: 尽管逻辑上每次查询的结果总是一张表，但用户可以获取从上次trigger后的变化delet作为结果输出；
  - 这些是物理意义上的deltas，而非逻辑上的；换句话说，哪些行被增减的变化，而非对于某些行的逻辑变化；
  - 用户必须指定一个primary key（可以以组合的形式）；输出的结果中包含了一个额外的status列，该列指定该记录是add/remove/update；
- Append: Deleta模式的一种特例，不过不包含remove的记录；同时，不需要指定primary key，结果也不包含status列；
- Update(-in-place): 直接更新结果（比如说update 一个mysql表），类似于Delata，primary key是必须的；
- Complete: 对于每一次查询结果，创建一个完整的snapshot;
总之，在任意时刻每次RQ执行的结果是确定的，并且保存它的完整结果或者距离上次的变更，而每次查询的执行则类似于Spark SQL。

sliding window包含4个参数：

Tumbling window是一种特殊的sliding window，它的sliding间隔同window大小一样；针对这种查询，作如下处理：

Query: 对每个记录分配一个session ID(包含session start/end/session grouping key)并做聚合操作，然后可以基于该sessionID做count(*)/max(time)/min(time);
Trigger为processing time；
Output模型为HDFS中的一个可更新文件

Repeated Query模型的好处：

没有stream的概念–所有的都是table和sql 查询；
不同于Google Dataflow， triggers和outputs同查询本身是独立的；Dataflow中window（从sql的角度看就是一个groupby）必须确定一个outputmode 和trigger，而在RQ中，可以使用这些查询，而不一定使用window的概念；
同batch processing兼容性很好；
许多心仪的features(sessions/feedback loops等)很容易实现；

RQ主要的缺点为查询的渐增是由planner完成的，planner必须支持queries/output mode/triggers的结合，比如说必须支持什么时候可以删除老的数据或者状态，用户对此则没法控制。

RQ相较于以上两种的优势在于：

CQL，Calcite和其他的一些streaming DB也有streams和table的概念，但这些都是嘉定一个单调、不可变的时间度量，对于这些系统，结果一旦差生就不可再变更。

参考：

Structured Streaming (aka Streaming DataFrames)： https://issues.apache.org/jira/browse/SPARK-8360

    原文作者：分裂四人组
    原文地址: https://www.jianshu.com/p/8b260d120569
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。