Apache Hive y SerDe

Ya hemos dedicado algunos posts a Apache Hive, si queréis saber que es os recomiendo comenzar por este post.

En este caso vamos a hablar sobre una interesantes característica de Hive: SerDe.

El interfaz SerDe permite indicarle a Hive como debe procesar un registro. SerDe es una combinación de Serializer y Deserializer.

· Deserializer toma una representación string o binaria y lo convierte a un objeto Java que Hive puede manipular.

· Serializer: toma un objeto Java y lo convierte en algo que Hive puede escribir a HDFS.

Para usar un SerDe a la hora de crear la tabla debo indicar que SerDe usar:

En este artículo podéis ver como crear un SerDe para procesar datos JSON desde Hive, de modo que sobre un JSON como este:

Las consultas con Hive queden:

Hadoop en la nube

Si estás pensando en usar Hadoop en la nube a los ya establecidos Amazon Elastic MapReduce y Windows Azure HDInsight se añaden estos dos nuevos servicios:

· Skytap que ofrece clusters Cloudera CDH4 Enterprise de hasta 50 nodos

· Joyent Solution for Hadoop que se ofrece como partner con Hortonworks

A %d blogueros les gusta esto: