Ecosistema Hadoop

Venga, sigamos dándole a Hadoop, con el ecosistema que compone Hadoop:

HDFS: es un sistema de archivos distribuido escalable y de alto rendimiento.

· HDFS está diseñado para mantener la coherencia: los commits no se consideran "completos" hasta que los datos se escriben datos en al menos dos volúmenes diferentes configurables.

· HDFS presenta una vista única de varios discos físicos o sistemas de archivos.

Chukwa: es un sistema de recolección de datos para el control, visualización y análisis de logs de grandes sistemas distribuidos.

Hive: infraestructura de Dataware que proporciona mecanismos para el almacenamiento, extracción, transformación y carga (ETL), y un lenguaje similar a SQL para realizar consultas y análisis.

HBase: es una base de datos NoSQL diseñada para almacenamiento en tiempo real, recuperación y búsqueda en tablas muy grandes (millones de columnas, billones de filas) que se ejecuta sobre HDFS.

HCatalog: es un servicio de gestión de tablas y almacenamiento para usar con Hadoop, que provee un esquema compartido y una abstracción de tablas para que los usuarios no deban saber como se almacenan sus datos.

Pig: es un conjunto de herramientas para el análisis programático de análisis de ficheros planos. Ofrece un lenguaje de programación, transformación de datos y procesamiento en paralelo.

Sqoop es una herramienta para importar y exportar datos almacenados en bases de datos relacionales en Hadoop o Hive usando las herramientas estándar de MapReduce y drivers JDBC

Zookeeper es una herramienta de gestión de aplicaciones distribuidas para la configuración, sincronización de eventos, agrupación de servicios utilizados para la gestión de los nodos en una red Hadoop.

Apache Flume aunque no forme estrictamente parte de su ecosistema permite trabajar como tal. Flume es un sistema distribuido para el recolectado, agregación y movimiento de grandes cantidades de datos de log desde Fuentes diferentes a un sitio cenralizado.