¿Qué es ImpalaToGo?

ImpalaToGo es un fork de Cloudera Impala independizado de Hadoop y optimizado para funcionar sobre Apache S3 almacenando datos localmente.

Los motivos que da su creador para usarlo son:

· Al ser un Impala sin Hadoop puedes usar las ventajas de su motor de queries sin todo el stack de Hadoop

· Optimizado para funcionar sobre Apache S3, es capaz de cachear datos en disco local

· Es la única base datos open source MPP escrita en C++

· Mucho más rápido que Hive sobre S3

Más información en esta presentación: http://www.slideshare.net/DavidGroozman/impala-togo-usecase

La forma más sencilla de usarla es esta: https://github.com/ImpalaToGo/ImpalaToGo/wiki/Quick-Start

Además soporta JSON de esta forma

Para este fichero JSON por ejemplo:

Modelaría esta tabla:

En la que estoy usando el nested_path para referirme a los atributos del JSON sobre el padre identity.

Y ya podré consultarlo fácilmente por estos campos:

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: