Blazing DB lleva a velocidades límites la gestión de información a gran escala

17:32 3 Junio, 2016

Rodrigo Aramburú se formó como economista, es hijo de peruanos radicados en el extranjero y no conoció el Perú sino hasta que logró armonizar en su vida dos cosas: su visión de emprendimiento y la fundación de su primera empresa, Blazing DB, un motor de base de datos para big data capaz de bordear velocidades inverosímiles en el tráfico de información a gran escala, y cuya envergadura sobrepasa los terabytes y alcanza los petabytes, rozando un límite que, de poder graficarse materialmente, representaría una comparación entre la Tierra y Júpiter.

Aramburú explicó el impacto de Blazing DB en el marco del Foro de Emprendimiento e Innovación LAB4+ del Alianza del Pacífico. Resaltó que su sistema brinda “acceso a cantidades o volúmenes de información extremadamente grandes, es decir, petabytes, en términos de segundos y utilizando el lenguaje más reconocido de la analítica a nivel mundial, el SQL, una tecnología que se ha estado utilizando desde hace más de 30 años”.

En tanto a la velocidad del tráfico de información, el CEO de Blazing DB contrastó el nivel de operación de su motor con Redshift, un sistema creado por Amazon, concluyendo que “en servidores del mismo costo, podemos ofrecer velocidades entre 10 a 20 veces más rápidas de lo que ofrecen ellos hoy en día”.

“Hubo un momento en el que tuvimos un proyecto para el cual debíamos generar unos análisis que se tardaban 35 horas en correr en nuestros servidores de Amazon. Entonces pensamos que tenía que haber una solución mejor, una manera de procesar información más rápida, y nos dimos cuenta y estuvimos trabajando con estos procesadores especiales del rubro de videojuegos, los cuales se llaman tarjetas de videos o GPUS”, comentó Aramburú en su presentación.

Comparación

Una laptop común posee 4 procesadores (Quad Core), mientras que los GPUS pueden alcanzar los 10 mil procesadores. Cambiando a este dispositivo, la consulta de 35 horas se redujo a una de 30 segundos. La desventaja, sin embargo, es que los GPUS configuran una plataforma sumamente tecnológica, y si uno no es desarrollador, probablemente no resulte muy interesante, explicó.

Big Data

Cuando se habla de información a gran escala o big data, Rodrigo Aramburú hace la precisión: “en el rubro, nosotros la definimos en tres términos: Volumen, que significa qué tanta información se está generando; Velocidad, es decir, cuál es la frecuencia de esa generación de información; y Variedad, qué tan diferentes son, cada vez, esas diferentes fuentes de información”.

En función a la productividad, Aramburú recomienda pensar en Volumen y Velocidad en conjunto, “porque si hablamos de un sistema que genera 1 gigabyte de información al año, eso es poquísimo, pero si me está generando a 1 gigabyte por segundo a lo largo de un día, un mes, un año o varios, ya estamos hablando de volúmenes extraordinariamente grandes, y esos son los tipos de problemas que nosotros ayudamos a resolver”.

El proceso

Sobre el funcionamiento del sistema de Blazing DB, el CEO explicó que el primer paso es el reconocimiento de las Fuentes Informáticas, por ejemplo, una base de datos operacional de las transacciones de ventas de una empresa internacional a cada segundo, es decir, miles y cientos de miles de compras. Aquí lo principal, según Aramburú, es entender cómo funcionan esas fuentes para trabajar con esa información.

Luego viene el almacenamiento y la analítica, el primero en un disco duro casi infinito que constantemente está creciendo más y más. Es un sistema distribuido, lo que quiere decir que lo conforman miles de disco duros, pero Blazing DB los presenta a sus clientes como uno solo. Como dato adicional, la información que ahí ingresa es “data cruda” difícil de manipular de manera analítica.

Finalmente, el procedimiento concluye con la transformación de la información a un modelo usable que se carga a un sistema analítico con visualizaciones, para lo que Blazing DB ejecuta un motor de búsqueda que centraliza todas las fuentes informáticas para dar el acceso a los diferentes componentes de una organización que necesitan la información.

(Por Jalbi Romero Mayuri)

Comparte en: