13.1. 热门的大数据分布式处理的三大重量级武器: Hadoop 、 Sp缸k 、 Storm ,以及新一代的数据采集和分析引擎 Elasticsearch 。
13.2.1. Hadoop 主要基于 Java 语言实现,由三个核心子系统组成 : HDFS 、 YARN 、 MapReduce , 其中, HDFS是一套分布式文件系统; YARN 是资源管理系统, MapReduce 是运行在 YARN 上的应用,负责分布式处理管理。
13.3.1. Apache Spark 是一个围绕速度 、 易用性和复杂分析构建的大数据 处理框架,基于 Scala 开发 。 最初在 2009 年由加州大学伯克利分校的 AMPLab 开发,并于 2010 年成为 Apache 的开源项目之-
13.4.1. Apache Storm 是一个实时流计算框架,由 Twitter 在 2014 年正 ~飞 式开源,遵循Eclipse Public License1.0,基于Clojure等语言实现
13.5.1. Elasticsearch 是基于 Lucene 的开源搜索服务( Java 实现) 。它是分布式、多租户的全文搜索引擎,支持 RESTful Web 接口 。Elasticsearch 支持实时分布式数据存储和分析查询功能,可以轻松扩展到上百台服务器,同时支持处理 PB 级结构化或非结构化数据 。