标签：streaming

Spark Streaming 误用.transform(func)函数导致的问题解析

Spark/Spark Streaming transform 是一个很强的方法，不过使用过程中可能也有一些值得注意的问题。在分析的问题，我们还会顺带讨论下Spark Streaming 生成job的逻辑，从而让大家知道…

Hadoop Streaming Hadoop streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当m…

大部分时候大家在选择技术方案的时候还是比较迷茫，是该选择JStorm还是Spark Streaming？一般会流于一些并不重要问题的讨论，最后做出目光非常短浅的选择，几个月之后再改变技术方案。造成严重的开发量的浪费，甚…

hadoop streaming 中 reducer 的输出文件类似：${outputDir}/part-******，其中 ***** 是 reducer 任务的任务号。但有的时候我们希望 reducer 能够输出到多…

为什么要用消息队列?比如有很多数据源在采集产生数据，如果直接把数据扔给spark streaming，可能各个产生的频率，即压力大小不同，造成spark产生问题。消息队列高吞吐，如kafka，可解决这个问题。

我一直在尝试使用VLC和FFmpeg在LAN上传输我的网络摄像头但我最终得到错误“主流错误：无法预填充缓冲区” 这是我试过的代码 ffmpeg -f x11grab -s 1680x1050 -r 30 -i :0.0…

前言我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。一个大致的数据接受流程一些存储结构的介绍哪些点可能导致内存问题，以及相关的配置参数另外，有位大牛写了Spark …

大家刚开始用Spark Streaming时，心里肯定嘀咕，对于一个7*24小时运行的数据，cache住的RDD,broadcast 系统会帮忙自己清理掉么？还是说必须自己做清理？如果系统帮忙清理的话，机制是啥？前言 …