Apache Spark,一个内存数据处理的框架,现在是一个顶级Apache项目。 这是Spark迈向稳定的重要一步,因为它越来越多地在下一代大数据应用中取代MapReduce。
MapReduce是有趣并且非常有用的,但现在看来Spark开始从它手中接过缰绳,成为新的Hadoop工作负载的主要处理框架。该技术在上周四迈出了十分具有意义的一步:Apache软件基金会宣布Spark现在是一个顶级项目 。
因 为它比MapReduce的速度更快、更容易编程,Spark已经囊括大量的用户和代码贡献者。 这意味着它非常适合用于下一代大数据的应用程序,它们可能需要更低的延迟查询,实时处理或在相同的数据上的迭代计算(即,机器学习)。 Spark的创立者来自加州大学伯克利分校 ,并且已经创建了一家名为Databricks的公司进行商业化运作。
Spark 从技术上讲是一个独立的项目,但它总是设计用来与Hadoop分布式文件系统一起工作 。 它可以直接在HDFS上运行, 以及通过YARN,它可以和同一群集上的MapReduce作业一起运行。 事实上,Hadoop的先驱Cloudera公司现在为Spark客户提供企业级支持。