Flink-Streaming-State & Fault Tolerance-Working with State

2023年8月12日 166次阅读来源: 耳边的火

这篇文档解释了如何在开发应用时，使用Flink的state。

Keyed State and Operator State

在Flink有两种基本的state：keyed state 与 operator state

Keyed state

keyed State 是与key关联的，只能在应用于keyedStream上的function与operator中使用。
你可以认为keyed state是分区后每个key都有自己的一个state的operator state。每一个keyed state逻辑上都与<parallel-operator-instance, key> 一一对应，又由于每一个key仅存在于某个特定的key operator实例，因此也可以说与<operator, key>一一对应。
keyed state 然后会被组织为key group。Key Group是一个原子性的单位，可以被flink用于重分配key state。key group的个数与job最大并行度相同（注：也就是有可能某个key operator实例持有多个key group）。在执行期间，每一个key operator实例都可以对其持有的一个或多个key group中的多个key state进行操作。

Operator state

对于 operator state（或者 non-keyed state）来说，每个operator state 都与一个operator 实例一一对应。Kafka connector是一个很好的例子。kafka consumer的每一个实例，都维持一个map（map类型的state），包含topic partitions以及offset。
当opetaor的并行度发生改变时，operator state接口支持对其state的重分配。有多种方案实现这种重分配。
（注：他俩的区别可以这么理解：Operator State:每个应用于non-key stream的operator实例都可以有自己的state，operator 与 state对应。而Keyed State：每个应用于keyedStream 的operator实例对应的是key group，key group是由多个key的state组成的，而且key state还可以在function中）

Raw and Managed State

keyed state 与 operator state 都存在两种形式： managed 与 raw。
managed state 代表flink可以在运行时控制的数据结构，数据结构如内部的hash table,RocksDB。managed state的举例，如：ValueState,LIstState等。Flink的运行时会对state进行编码，并且写入checkpoint。
raw state 是那些在operator中使用自己的数据结构的state。当checkpoint时，他们仅会写一个字节序列到checkpoint中。Flink并不知道state的数据结构，仅仅是看到这些字节。
所有的function中都可以使用managed state，而raw state仅可以在实现operator时使用。推荐使用managed state，因为当job的并发度发生改变时，flink可以自动的对managed state进行重分配，并且使用managed state有更好的内存管理。
注意：如果你的managed state需要自定义的序列化逻辑，可以参阅corresponding guide来确保兼容性。Flink的默认序列化器不需要特殊处理。

Using Managed Keyed State

managed key state 接口提供了访问不同类型state能力，这些state都对应于输入流中数据的key。这意味着，managed key state只能在 keyedStream 中使用，一般可以通过 stream.keyBy(…)来创建 keyedStream。
现在，我们会先看一下哪些类型的state可用，然后会展示如何在代码中使用。下面是可用的基本state：

ValueState<T>:维持一个可以被更新与获取的value（就如上文说的，该state对应于一个key，因此对于一个operator实例来说，可以获取到其中各个key的对应的state），state的值可以通过 update(T) 来更新，可以通过 T value()来获取。
ListState<T>:这个state会维持一个list。你可以追加元素，也可以获取到当前存储的所有元素的 Iterable。通过 add(T) / addAll(List<T>) 来添加元素，通过 Iterable<T> get() 方法获取迭代器。你也可以使用 update(List<T>) 来覆盖state。
ReducingState<T>:这个state维持一个值，该值代表所有添加到这个状态的值的聚合。接口和ListState类似，但是使用 add(T)添加元素，会导致该值进入 ReduceFunction 执行聚合操作。
AggregatingState<IN,OUT>:这个state维持一个值，该值代表所有添加到这个状态的值的聚合。与ReducingState不一样的是，聚合后的值的类型可以和输入值的类型不同。接口和ListState类似，但是使用 add(T)添加元素，会导致该值进入 AggregateFunction 执行聚合操作。
FoldingState<T,ACC):这个state在1.4就弃用了，在后面的版本中会完全删除，可以使用 AggregatingState代替
MapState<UK,UV>:这个state维持了一个map。你可以将key-value对put到state中也可以获取当前map的Iterable。可以使用 put(UK,UV)/putAll(Map<UK,UV>)来添加map。获取某个user key的值，可以使用 get(UK).Iterable 可以使用 entries(),keys(),values()方法。

所有类型的state都有clear()方法，该方法会清除当前key对应的状态。
第一件重要的事情是，这些state对象都是仅用来连接state的，state不一定存储在内存中，也有可能在磁盘上或者其他地方。第二件重要的事情是，你从state中获取到的value取决于输入流中的key。因此如果你在自定义函数中调用了state的方法获取值时，在不同的key时，返回的结果是不同的。
为了手动获取state，你必须创建 StateDescriptor。这个类会保存这个state的名称，state中value的类型，以及可能会有的自定义函数，如 ReduceFunction（你可以定义好几个state，使用不同的名字命名，这样可以通过名称来获取它们）。取决于你想要使用何种类型的state，你可以选择创建如下的descriptor：ValueStateDescriptor, ListStateDescriptor, ReducingStateDescriptor, FoldingStateDescriptor 或者 MapStateDescriptor。
state 可以通过 RuntimeContext 来获取，因此只有在 rich function中才可以使用state。RichFunction中的RuntimeContext有如下方法可以获取state：

ValueState<T> getState( ValueStateDescriptor<T>)
ReducingState<T> getReducingState(ReducingStateDescriptor<T>)
ListState<T> getListState(ListStateDescriptor<T>)
AggregatingState<IN, OUT> getAggregatingState(AggregatingStateDescriptor<IN, ACC, OUT>)
FoldingState<T, ACC> getFoldingState(FoldingStateDescriptor<T, ACC>)
MapState<UK, UV> getMapState(MapStateDescriptor<UK, UV>)

下面的示例使用 FlatMapFunctino 展示了如何使用上面说的特性：

public class CountWindowAverage extends RichFlatMapFunction<Tuple2<Long, Long>, Tuple2<Long, Long>> {

    /**
     * The ValueState handle. The first field is the count, the second field a running sum.
     */
    private transient ValueState<Tuple2<Long, Long>> sum;

    @Override
    public void flatMap(Tuple2<Long, Long> input, Collector<Tuple2<Long, Long>> out) throws Exception {

        // access the state value
        Tuple2<Long, Long> currentSum = sum.value();

        // update the count
        currentSum.f0 += 1;

        // add the second field of the input value
        currentSum.f1 += input.f1;

        // update the state
        sum.update(currentSum);

        // if the count reaches 2, emit the average and clear the state
        if (currentSum.f0 >= 2) {
            out.collect(new Tuple2<>(input.f0, currentSum.f1 / currentSum.f0));
            sum.clear();
        }
    }

    @Override
    public void open(Configuration config) {
        ValueStateDescriptor<Tuple2<Long, Long>> descriptor =
                new ValueStateDescriptor<>(
                        "average", // the state name
                        TypeInformation.of(new TypeHint<Tuple2<Long, Long>>() {}), // type information
                        Tuple2.of(0L, 0L)); // default value of the state, if nothing was set
        sum = getRuntimeContext().getState(descriptor);
    }
}

// this can be used in a streaming program like this (assuming we have a StreamExecutionEnvironment env)
env.fromElements(Tuple2.of(1L, 3L), Tuple2.of(1L, 5L), Tuple2.of(1L, 7L), Tuple2.of(1L, 4L), Tuple2.of(1L, 2L))
        .keyBy(0)
        .flatMap(new CountWindowAverage())
        .print();

// the printed output will be (1,4) and (1,5)

这个示例中，使用tuple的第一个field作为key（在示例中，只有一个相同的key：1），在function中，存储该key出现的次数以及计算总和，放入Valuestate中。一旦次数大于等于2，就会计算并发射平均值，然后清空state，这样我们就会再次从0开始。注意的是，如果我们的输入有多个key的话，对于不同的key会有不同的state value。

State Time-To-Live(TTL)

任何类型的state都可以指定ttl。当配置了TTL并且state value过期后，存储的value会已一种高效的方式清除，下面会详细介绍。
state的集合类型支持per-entry TTL，这意味着list中的元素或者map中的entry的过期时间是相互独立的。
为了使用state的TTL功能，必须要构造一个 StateTtlConfig 的配置对象。然后就可以通过向state descriptor中传configration的方式实现对应state的TTL功能。

import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;

StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.seconds(1))
    .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
    .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
    .build();
    
ValueStateDescriptor<String> stateDescriptor = new ValueStateDescriptor<>("text state", String.class);
stateDescriptor.enableTimeToLive(ttlConfig);

configuration有几个需要注意的点：
newBuilder 方法的第一个参数是固定的，就是 time-to-live 的值
update type 配置什么时候state的TTL被刷新（默认是 onCreateAndWrite）

StateTtlConfig.UpdateType.OnCreateAndWrite – 仅当创建或写入时刷新
StateTtlConfig.UpdateType.OnReadAndWrite – 创建，写入或读取时都可以刷新

state visibility 配置了当过期数据未被清除时，读取该数据是否会返回数据的值。（默认是 NeverRetrunExpired）

StateTtlConfig.StateVisibility.NeverReturnExpired – 过期的数据不会返回
StateTtlConfig.StateVisibility.ReturnExpiredIfNotCleanUp – 如果还未被清除则返回过期数据

当使用 NeverReturnExpired 时，过期state的表现就像是真的不存在了一样，即便它又可能还未被完全移除。这个策略在数据过去后就不可见的场景中很适合，例如与敏感隐私数据交互的应用。
另一个选项 ReturnExpiredIfNotCleanUp 允许返回未被清除的过期数据。
注意：

state数据进行最后修改的时间戳会和state一起存储在状态后端，也意味着会增加状态存储的消耗。使用堆内存作为状态后端时，会使用另一个类，该类拥有指向用户state对象的引用以及一个private long值。使用RocksDB作为状态后端时，会在每个存储的value，每个list的元素以及每个map的entry前添加8字节。
当前仅支持 TTL 的时间引用 processing time
使用TTL重新存储之前为配置TTL时的state，会导致兼容故障与 StateMigrationException，反之亦然。
TTL 配置不是checkpoint/savepoint 的一部分，而是一种说明flink如何处理当前正在运行的job。
使用TTL配置的map state，如果user value的序列化器可以处理null值，则允许其写入null。如果序列化器不支持null值，它可以被 NullableSerializer 包装起来，但是会在序列化框架中多耗费额外的字节。

Cleanup of Expired State

默认情况下，过期的数据只有在读取超时时，被清除，也就是调用 ValueState.value()。
注意：这意味着，默认情况下，如果过期state没有被read，则不会被清除，可能会导致state不断增长。这可能会在以后的版本中解决。

在snapshot中进行cleanup

除了上面的默认方式外，你也可以在执行 full state snapshot时触发cleanup，这样也会减少state snapshot 的大小。在目前的实现中，本地state不会被清除，但是当从以前的snapshot恢复时，不会加载snapshot中过期的state。这种方式可以在 StateTtlConfig中配置。

import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.time.Time;

StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.seconds(1))
    .cleanupFullSnapshot()
    .build();

这种方式不合适RocksDB状态后端的incremental checkpoint。
注意：

对于已经存在的job来说，clearup 策略可以随时使用 StateTtlConfig 来生效或者失效，如：修改配置后，从savepoint处重启

Incremental cleanup

另一个选项是，当一些state有增量变化时，触发cleanup。可以在每次访问state或者处理每条数据时的回调函数中触发cleanup。如果对某些state使用了这种cleanup策略，存储后端就会维持一个包含所有state值的iterator。每次触发cleanup时，都会迭代一遍，被扫描的state值都会被检查，过期的值就会被清除。
这个策略可以在 StateTtlConfig中配置：

import org.apache.flink.api.common.state.StateTtlConfig;
 StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.seconds(1))
    .cleanupIncrementally()
    .build();

这个策略有两个参数。第一个参数为数字，代表每次触发cleanup时需要检查的state的值的数量。如果启用了这个值，每次state被访问时，都会触发cleanup。第二个参数定义了是否需要在每次数据处理是调用cleanup。
注意：

如果该state被访问或者没有数据被处理，过期的数据不会被清除
为了cleanup所花费的时间，会导致处理延迟的增加
目前，incremental cleanup的实现仅针对 Heap 状态后端。如果设置的状态后端为 RocksDB，则不会生效
如果Heap状态后端使用同步snapshot机制，全局iterator会在迭代时，维持所有key的副本，因为目前它不支持并发修改，因此这会增加内存消耗。异步snapshot不会有这个问题
对于已经在运行的job，可以通过修改 StateTtlConfig来激活/失效cleanup 策略，然后通过savepoint重启。

Cleanup during RocksDB compaction

如果使用RocksDB作为状态后端，另一个cleanup策略是启用Flink的 compaction filter。RocksDB周期性的异步的压缩合并的state减少存储。Flink compaction filter会检查state的过期数据，这些数据会被排除。
这个特性默认是关闭的。首先需要配置状态后端为RocksDB，然后可以通过设置 state.backend.rocksdb.ttl.compaction.filter.enabled或者调用RocksDBStateBackend::enableTtlCompactionFilter。这样，配置使用TTL的state就可以使用该策略清除数据了。

import org.apache.flink.api.common.state.StateTtlConfig;

StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.seconds(1))
    .cleanupInRocksdbCompactFilter()
    .build();

RocksDB compaction filter会在处理完特定数量的state值后，从flink查询当前timestamp用于检查过期。这个数值默认是100.你可以通过 StateTtlConfig.newBuilder(...).cleanupInRocksdbCompactFilter(long queryTimeAfterNumEntries) 来修改。经常更新timestamp可以提高cleanup的速度，但是会掉那个地compaction的性能，因为compaction使用JNI来调用native code。
你可以配置 FlinkCompactionFilter 来启动 RocksDB filter 的debug 日志：
log4j.logger.org.rocksdb.FlinkCompactionFilter=DEBUG
注意：

在 compaction 是调用 TTL filter会降低它的速度。TTL filter要解析最后一个访问state的时间戳，然后在正在 compact 的数据中判断每个数据是否过期。如果state 的类型是集合（如list或map），那么就是检查集合的每个元素。
如果这个策略使用在list state中，且list中的元素的字节长度不固定，原生的TTL filter会针对集合的元素，额外的调用flink的java type serializer，来处理集合中每个元素，至少是第一个过期的元素，以便决定下一个过期元素的offset。
对于已经在运行的job，可以通过修改 StateTtlConfig来激活/失效cleanup 策略，然后通过savepoint重启。

State in the Scala DataStream API

scala的api暂不翻译

使用 Managed Operator 状态

为了使用 managed operator state，一个有状态的function必须实现 CheckpointedFunction 接口或
ListCheckpointed<T extends Serializable> 接口。

CheckpointedFunction

CheckpointedFunction 接口提供了访问 non-keyed state 以及不同重分配方案的能力。他要求实现两个方法：

void snapshotState(FunctionSnapshotContext context) throws Exception;

void initializeState(FunctionInitializationContext context) throws Exception;

一旦checkpoint被执行，就会调用 snapshotState() 方法。与之相对的，initializeState() 方法在每次用户自定义函数初始化时被调用，可以使第一次初始化时，也可以是从某个checkpoint故障恢复时。基于此，initializeState() 方法不仅是各种state初始化的地方，也是state从故障处恢复的地方。
目前，managed operator state支持list-style 的值。List的元素需要是一个可序列化的对象，且相互之间独立，这样才可以在应用伸缩时进行state的重分配。换句话说，这些对象是在重新分配non-key state时的最小粒度。取决于状态的访问方法，定义了下面两个重分配方案：

Even-split redistribution:每个operator都有会一个含有state数值的list。逻辑上讲，所有的state是所有list的合并。当重启或者重分配时，list会被均匀的划分到每个并发操作符实例中。每一个操作符都会有一个sublist，它可以是空，也可以有一个或多个元素。如，在并发度为1时，操作符包含两个元素 e1,e2，当增加并发度到2时，可能e1在第一个操作符实例，e2在第二个操作符实例中。
Union redistribution:每个operator都有会一个含有state数值的list。逻辑上讲，所有的state是所有list的合并。当重启或者重分配时，每个操作符都持有含有所有的state数值的list。

下面的示例展示了一个实现了 CheckpointedFunction 的 SinkFunction ，它会在将数据写入其他系统时，缓存数据。它展示了 even-split redistribution ：

public class BufferingSink
        implements SinkFunction<Tuple2<String, Integer>>,
                   CheckpointedFunction {

    private final int threshold;

    private transient ListState<Tuple2<String, Integer>> checkpointedState;

    private List<Tuple2<String, Integer>> bufferedElements;

    public BufferingSink(int threshold) {
        this.threshold = threshold;
        this.bufferedElements = new ArrayList<>();
    }

    @Override
    public void invoke(Tuple2<String, Integer> value, Context contex) throws Exception {
        bufferedElements.add(value);
        if (bufferedElements.size() == threshold) {
            for (Tuple2<String, Integer> element: bufferedElements) {
                // send it to the sink
            }
            bufferedElements.clear();
        }
    }

    @Override
    public void snapshotState(FunctionSnapshotContext context) throws Exception {
        checkpointedState.clear();
        for (Tuple2<String, Integer> element : bufferedElements) {
            checkpointedState.add(element);
        }
    }

    @Override
    public void initializeState(FunctionInitializationContext context) throws Exception {
        ListStateDescriptor<Tuple2<String, Integer>> descriptor =
            new ListStateDescriptor<>(
                "buffered-elements",
                TypeInformation.of(new TypeHint<Tuple2<String, Integer>>() {}));

        checkpointedState = context.getOperatorStateStore().getListState(descriptor);

        if (context.isRestored()) {
            for (Tuple2<String, Integer> element : checkpointedState.get()) {
                bufferedElements.add(element);
            }
        }
    }
}

initializeState 的入参为 FunctionInitializationContext。它被用来初始化 non-keyed state。上面的示例中，使用了 ListState 类型的state，用来存储需要被checkpoint的数据。
注意state是如何初始化的，同 keyed state类似，使用 StateDescriptor来获取初始化的state。

ListStateDescriptor<Tuple2<String, Integer>> descriptor =
    new ListStateDescriptor<>(
        "buffered-elements",
        TypeInformation.of(new TypeHint<Tuple2<Long, Long>>() {}));

checkpointedState = context.getOperatorStateStore().getListState(descriptor);

获取state的方法的名称代表了该state所使用的重分配策略。例如，想要对list state使用 union redistribution策略，则需要在获取state时调用 getUnionListState(descriptor)方法。如果方法名不包含重分配策略的信息，如：getListState(descriptor)，那么，它默认实现的是 even-split redistribution 策略来重分配。
初始化 state 后，我们使用context的 isRestored() 方法来判断是否是故障恢复的情况。如果是的话，就需要在初始化时，应用我们自定义的故障恢复逻辑。
就像在 BufferingSink 中演示的那样，在状态初始化期间生成的 ListState 会保存在类变量中，以供将来可以在 snapshotState() 方法中使用。snapshotState() 方法中，先调用 ListState.clear() 方法将上次checkpoint的数据清空，再填上这次checkpoint需要的数据。
作为旁注：keyed state也可以在 initializeState() 方法中初始化。可以使用提供的 FunctionInitializationContext 来完成。

ListCheckpointed

ListCheckpointed 是一个在 CheckpointedFunction 基础上加了限制的变种，它仅支持list-style 状态使用 even-split 重分配策略。它也要求实现下面的两个方法：

List<T> snapshotState(long checkpointId, long timestamp) throws Exception;

void restoreState(List<T> state) throws Exception;

snapshotState() 方法应该返回需要被checkpoint的方法，而restoreState 会处理一个类似的list用于故障恢复。如果state不是 re-partitionable 的，你可以在snapshotState()返回 Collections.singletonList(MY_STATE).

Stateful Source Functions

stateful source与其他操作符相比，需要更多的操作。为了使状态的更新与数据的发射变得原子性（要求在故障/恢复时做到exactly-once语义），用户需要从source context中获取一个所。

public static class CounterSource
        extends RichParallelSourceFunction<Long>
        implements ListCheckpointed<Long> {

    /**  current offset for exactly once semantics */
    private Long offset = 0L;

    /** flag for job cancellation */
    private volatile boolean isRunning = true;

    @Override
    public void run(SourceContext<Long> ctx) {
        final Object lock = ctx.getCheckpointLock();

        while (isRunning) {
            // output and state update are atomic
            synchronized (lock) {
                ctx.collect(offset);
                offset += 1;
            }
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }

    @Override
    public List<Long> snapshotState(long checkpointId, long checkpointTimestamp) {
        return Collections.singletonList(offset);
    }

    @Override
    public void restoreState(List<Long> state) {
        for (Long s : state)
            offset = s;
    }
}

某些operator可能需要知道Flink是什么时候确认checkpoint完成的，然后将这个信息与外部系统交互。这种情况可以参阅 org.apache.flink.runtime.state.CheckpointListener 接口。

    原文作者：耳边的火
    原文地址: https://www.jianshu.com/p/8be22c530d25
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。