整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET
http://blog.csdn.net/stark_summer/article/details/44038247
作为一个实时大数据处理工具, Spark Sreaming 近日一直被广泛关注,与 Apache Storm 的对比也经常出现。但是依我说,缺少与Kafka整合,任何实时大数据处理工具都是不完整的,因此我将一个示例Spark Streaming应用程序添加到 kafka-storm-starter ,并且示范如何从Kafka读取,以及如何写入到Kafka。在这个过程中,我还使用Avro作为数据格式,以及Twitter Bijection进行数据序列化。
在任何Spark应用程序中,一旦某个Spark Streaming应用程序接收到输入数据,其他处理都与非streaming应用程序相同。也就是说,与普通的Spark数据流应用程序一样,在Spark Streaming应用程序中,你将使用相同的工具和模式。更多详情可见Level of Parallelism in Data Processing 文档。