¿Qué es sparklyr?

RStudio ha publicado sparklyr, un nuevo paquete R que ofrece un interfaz entre R y pache Spark.

Sparklyr ofrece:

· Manipulación de datos Spark desde dplyr y SQL (vía DBI)

· Filtrado y agregado de datasets Spark desde R

· Interfaces para los algoritmos Machine Learning de Spark MLib y H2O SparklingWater

· Extensiones para proveer interfaces con otros paquetes Spark

· Soporte integrado para trabajar con DataFrames dentro del IDE RStudio

Info sobre dplyr

Para instalarlo haré:

Si quiero instalar Spark en local para desarrollo entonces:

Para conectar con Spark (obteniendo un SparkContext):

También puedo copiar Data Frames de R a Spark usando la función copy_to:

Puedo usar Spark SQL vía DBI:

Y Spark MLib:

O H2O Sparkling Water:

La última versión de RStudio ofrece soporte para Spark vía sparklyr:

Y podré ver las tablas y DataFrames Spark:

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: