Un poco de StreamSets Data Collector

StreamSets Data Collector es una solución DataFlow (al estilo de Spring 😄 o Hortonworks DataFlow) opensource (licencia Apache 2.0), dicho de otra forma es una infraestructura que soporta la ingesta continua en entornos Big Data.

Está desarrollada en Java.

Ofrece un interfaz de usuario Web muy potente para que los Data Scientits pueda crean sus pipelines de forma sencilla.

Y:

Nos permite modelar Pipelines como este:

Ofrece integrados conectores con un gran número de sources y sinks (origins y destinations) incluyendo Amazon S2, Cassandra, Hadoop, Kafka, SolR, HBase, JDBC, JMS, (ver integraciones)

además permite procesar online los datos a través de sus Transformers que pueden codificarse en Python, Javascript y Java.

StreamSets Data Collector está pensado para entornos Big Data e Alta disponibilidad, para lo que permite desplegar los pipelines en cluster. También ofrece una completa monitorización de los pipelines:

StreamSets Data Collector se puede instalar de diversas formas, entre ellas vía Docker y Cloudera Manager.

En su documentación podéis ver cómo se trabaja con el producto. Para comenzar os recomiendo su Tutorial. También podéis echar un ojo a sus videotutoriales, como este.

Además de la versión Community (sin coste) ofrece 2 licencias comerciales:

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: