Free Editor: editor para casi cualquier cosa!!!

Free Editor es un editor para Windows que permite abrir y editar un gran número de tipos de archivos, desde los típicos Word, Excel, HTMLs a imágenes, pdf,…

Ahí va la lista de todos los ficheros soportados:

Lo cierto es que lo he probado y es una maravilla…lo incluyo con mis herramientas imprescindibles!!!

Para añadir a nuestra jerga informática

En este post de Coding Horror se enumeran 30 nuevos conceptos que deberían formar parte de nuestra jerga informática!!!

Me quedo con la 17 :D, aunque estoy por probar la 16 ahora mismo!!! (imaginarme con esa cara :)):

Post sobre solución basada en Hadoop

En este interesante post se cuenta cómo una empresa empieza a usar el ecosistema Hadoop:

Cuando llegué … el equipo ya había desarrollado un prototipo … que podía organizar una cantidad limitada de UGC sobre salud en conocimientos relevantes. El sistema podía:

· Rastrear la web y recuperar fuentes HTML en bruto

· Extraer el contenido generado por el usuario (es decir, de mensajes de usuarios) de las fuentes

· Extraer conceptos de los mensajes e indexarlos

· Ejecutar el análisis semántico de los mensajes utilizando algoritmos de procesamiento del lenguaje natural (Natural Language Processing, NLP en adelante)

· Calcular estadísticas

Recogimos datos de docenas de sitios web y mensajes individuales de los medios de decenas de millones de personas. Tuvimos un puñado de algoritmos de análisis de texto y sólo se podían procesar un par de millones de mensajes por día…

Con el fin de ganar aún más conocimientos relacionados con la salud, sabíamos que necesitábamos una solución que pudiera rastrear y procesar una mayor cantidad de datos (en un orden de magnitud superior).

Tratar con unas pocas docenas de websites era difícil y costoso. Pero fuimos capaces de ampliar nuestro código de Microsoft para manejar una colección de varios cientos de webs, y podíamos procesar alrededor de 250 millones de entradas de blogs.

Además del hecho de que la administración del proceso fue un infierno, fué caro en términos de CPU, de red y de entrada/salida (I/O); por ejemplo, después de cada etapa, los datos necesitaban ser movidos a un servidor diferente para la siguiente etapa.

A principios de 2010 comenzamos a buscar soluciones que pudiesen soportar las capacidades que queríamos. Los requisitos incluían:

· Almacenamiento fiable y escalable.

· Infraestructura de procesamiento fiable y escalable.

· Motor de búsqueda (para la recuperación de mensajes) con alta disponibilidad (HA).

· Almacenamiento escalable en tiempo real para recuperación de estadísticas, con HA.

El nuevo sistema era capaz de analizar mensajes a razón de 50 Millones por día. Esto fué una mejora muy significativa del rendimiento. Además, tenía un mantenimiento asequible, era fiable y con un funcionamiento sin problemas. Por supuesto, hubo obstáculos en el camino, pero al final logramos superarlos todos.

Hemos continuado para mejorar y ampliar el resultado, y actualmente podemos procesar entre 150 – 200 millones de mensajes de usuarios por día. En posteriores entradas del blog compartiré con más detalle el diseño de nuestro sistema, el uso de HBase y la arquitectura de cluster.