¿Qué es Zeppelin? (el Notebook BigData)

Apache Zeppelin es una implementación del concepto de web notebook, centrado en la analítica de datos interactivo mediante lenguajes y tecnologías como Shell, Spark, SparkSQL, Hive, Elasticsearch, R,…

Apache Zeppelin (incubating)

El concepto de “notebook” fue introducido por iPython, que permitía trabajar sobre un interfaz web en lugar de sobre una shell

El notebook permite compartir tus procesos con otros, de modo que estos puedan entenderlos, modificarlos y adaptarlos a sus necesidades.

Siguiendo con iPython, IPython 3 fue rearquitecturado y se creó Jupyter que ofrece una gran cantidad de lenguajes (Scala, R, Python, Spark, F#,…)

Pero, ¿y entonces por qué Zeppelin?

Zeppelin ofrece varias ventajas:

· Simplicidad: hasta un auténtico cenutrio en esto de manipular los datos es capaz vía Hive o SparkSQL de construir aplicaciones de datos

· Agnóstico del lenguaje: con una arquitectura de plugins (interpretes)..

· Permite crear notes en varios lenguajes

· Interfaz sobre Bootstrap y AngularJS

· (esta sólo para mí?) Java e integrado a la perfección con Hadoop y Spark por ejemplo

Por el contrario Zeppelin está aún en un estado más embrionario que Jupyter, aunque la comunidad lo está respaldando fuertemente….

Una forma muy sencilla de empezar con Zeppelin es instalarlo sobre una VM Hadoop (HDP o CDH), los pasos son mínimos:

Instalar Zeppelin en HDP

Instalar Zeppelin en CDH

En un próximo post haremos un ejemplo completo….

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s