硅谷之路13:从Storm到Heron的Twitter实时大数据之路

Twitter从闪电变成了美丽的苍鹭

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》

Twitter的需求

  • 实时趋势发现:疫苗问题
  • 实时讨论:苹果发布会
  • 实时推荐:广告
  • 实时搜索:地震

Storm

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》

如何统计单词的出现次数?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
如何加速统计单词的出现次数?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
Storm的架构是什么?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
worker是什么?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
Worker的数据流是什么?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
集群的上限是多少?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
什么是瓶颈? Zooper做的事太多了!!!

  • kafka数据:2s
  • 心跳:3s

怎么破心跳风暴? 独立的心跳进程

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
资源如何分配?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
上游数据过快怎么办?

  • 下游随即丢失(worker收到数据太多,为了防止雪崩)
  • 上游重发
  • 无法细粒度控制

内存成为瓶颈会如何?

  • 20%-30%的CPU利用率
  • 没有CPU和内存的细粒度隔离和调度

数据很多会发生什么?

  • 一个一个处理
  • 缺乏批量处理能力

Heron的设计目标

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
Stream Manager是如何传输的?

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》 《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》
参考文献:Twitter Heron: Streaming at Scale

完整视频查看: BitTiger

更多精彩内容, 请扫描下面二维码,关注微信公众账号“论码农的自我修养”

《硅谷之路13:从Storm到Heron的Twitter实时大数据之路》

    原文作者:Mingche Su
    原文地址: https://zhuanlan.zhihu.com/p/20670229
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞