Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,由加州大学伯克利分校AMP实验室开发,可用来构建大型的、低延迟的数据分析应用程序。
Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark实际上是对Hadoop的补充,可以在Hadoop文件系统中并行运行。
Spark是在Scala语言中实现的,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。(学习Scala:https://edu.aliyun.com/course/1889)