标签：kafka

Spark Streaming读取Kafka数据

Kafka为一个分布式的消息队列，spark流操作kafka有两种方式：一种是利用接收器（receiver）和kafaka的高层API实现。一种是不利用接收器，直接用kafka底层的API来实现（spark1.3以后…

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法： 1、老的方法 -使用Receivers 和kafka的高级API 2、新的方法（ Spark 1.3 开始引入）-不使用Recei…

学习了差不多一个星期，终于把flume-kafka-spark streaming贯通了，直接上流程图：至于为什么要这样，当然是方便咯参考某博客一、环境部署 hadoop集群2.7.1 zookeerper集群 …

Kafka 单机环境搭建从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本，这两个版本升级较大。而且对于Spark，有两个不同的jar包依赖，所以需要在测试环境中准备这两个…

Structured Streaming 与0.10及以上版本的Kafka整合来对Kafka中的读书进行读取和写入操作。 Linking 对于使用SBT/Maven定义的Scala/Java应用程序，请将你的应用程序与如…

（本文基于Spark 2.1.1、Kafka 0.10.2、Scala 2.11.8、Zookeeper 3.4.9、Kafka-manager-1.3.0.7）利用Receiver机制接收数据，需要加载spark-s…

前言最近在专注Spark开发，记录下自己的工作和学习路程，希望能跟大家互相交流成长本文章更倾向于实战案例，涉及框架原理及基本应用还请读者自行阅读相关文章，相关在本文章最后参考资料中关于Zookeeper/Kafka…

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数…

1.1 Receiver-based Approach 这种方式利用接收器（Receiver）来接收kafka中的数据，其最基本是使用Kafka高阶用户API接口。对于所有的接收器，从kafka接收来的数据会存储在spa…

之前一段时间通过SparkStreaming+Kafka处理上网日志数据的一些记录，做个备忘。 KafkaUtils.createDirectStream or KafkaUtils.createStream creat…

Cloudera Engineering Blog 翻译：Offset Management For Apache Kafka With Apache Spark Streaming Spark Streaming 应用…

input { kafka { auto_offset_reset => "earliest" codec => "plain" group_id => "es1" topics => ["myt…