¿Qué es PivotalR?

En una analítica tradicional con los datos se cargan desde un datasource, se modelan o visualizan en R y se vuelven a cargar al datasource. Esta aproximación funciona cuando la cantidad de datos puede cargarse en memoria y la transferencia de grandes cantidades de datos es poco costosa y rápida.

PivotalR es un paquete que permite el uso de las bases de datos Pivotal Greenplum, Pivotal HAWQ y Postgresql desde R (el lenguaje y entorno estadístico open-source más usado) para analítica Big Data.

Para esto ofrece un interfaz para las operaciones en las tablas, también permite al usuario usar el paquete Big Data Machine Learning MADlib,

Con PivotalR puedes desarrollar, refinar y desplegar scripts R que aprovechen la ejecución en paralelo y escalabilidad de estas bases de datos. También permite usar librerías analíticas en la propia base de datos sobre datasets Bid Data sin tener que cargarlos en R.

Algunas de las funciones analíticas más interesantes son:

Data Connectivity – db.connect, db.disconnect, db.Rquery

Data Exploration – db.data.frame, subsets

R language features – dim, names, min, max, nrow, ncol, summary etc

Reorganization Functions – merge, by (group-by), samples

Transformations – as.factor, null replacement

Algorithms – linear regression and logistic regression wrappers for MADlib,

PivotalR Specific – content, preview

En este PDF podéis encontrar todas las funciones que soporta PivotalR: http://cran.r-project.org/web/packages/PivotalR/PivotalR.pdf

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: