使用scala编写flink消费kafka实时计算pv,uv

分享一个大神的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!
点击浏览教程

实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。

我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求.

  • 每秒钟要输出最新的统计结果
  • 程序永远跑着不会停,所以要定期清理内存里的过时数据
  • 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制
  • 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出

flink数据流上的类型和操作

DataStream是flink流处理最核心的数据结构,其它的各种流都可以直接或者间接通过DataStream来完成相互转换,一些常用的流直接的转换关系如图:
《使用scala编写flink消费kafka实时计算pv,uv》
可以看出,DataStream可以与KeyedStream相互转换&#x

    原文作者:大数据技术派
    原文地址: https://blog.csdn.net/ddxygq/article/details/88727649
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞