¿Qué es Apache Arrow?

(gracias @miguelpdm)

Apache Arrow es un proyecto Apache diseñado para proveer una capa de acceso columnar de alto rendimiento en memoria para permitir analítica entre diversos sistemas.

En una Arquitectura Big Data es típico tener diversas piezas, Cassandra, Spark, Parquet, HBase, Kafka, de modo que cuando estoy trabajando, debido al formato diferente de cada una una gran parte del tiempo (en Arrow lo estiman en un 70-80%) se pierde en la serialización y deserialización:

Arrow propone una Capa de Datos común en memoria en la que todos los sistemas compartan el mismo formato y no haya overhead por la comunicación:

Arrow se basa en código de Apache Drill y promote mejorar de hasta un 100x en procesos analíticos.

Arrow usa un formato columnar y ofrece soporte para un gran número de lenguajes, como Java, C, Python, C++,…

Además de este formato Arrow soporta también datos complejos con esquemas dinámicos, por ejemplo es capaz de manejar datos JSON.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: