
Hola, vengo a contaros que es el Big Data. En este caso tenéis una definición que nos regala la CEO de IBM en el que se enuncia que el Big Data es el próximo recurso natural del próximo siglo. Esta definición tiene una doble acepción en el sentido en el que esos datos van a ser una materia prima y necesitamos transformar esa materia prima para generar un producto de mayor valor. Esta transformación, en este caso, lo que vamos a necesitar es aplicar una competencia analítica por encima que sea capaz de generar conocimiento por encima de estos datos.
Tenéis aquí otra definición, en este caso Big Data se refiere a “la combinación de un enfoque orientado a quitar la toma de decisiones, con descubrimientos analíticos que se extraen de los datos”, es una definición de John Akred, el fundador de Silicon Valley Data Science.
Al final no hay una definición formal sino que cada empresa, cada agrupación, acuña una, todas tienen algo en común, todas hablan de muchos datos, mucha más información de la que podríamos tratar o analizar con tecnologías tradicionales. Por hablar de números, según el informe de IBM, nos indica que el 90% de la información disponible hoy en día ha sido producida en los últimos dos años. Según el informe de Cisco, pues nos da, nos arroja, algunas cifras cuatro millones, cuatro billones de usuarios conectados a Internet, veintiún billones de dispositivos conectados, más de treinta millones de sensores generando información digital que podemos explotar, de la que podemos extraer valor. Todo ello, además, con la complejidad de que tenemos que tratar de información de muchas naturalezas, hasta ahora trabajábamos con información estructurada y, bueno, pues empezamos a encontrarnos con el problema de analizar y trabajar con información desestructurada, incluso si tenemos en cuenta el hándicap del tamaño, pues nos podemos encontrar, incluso, problemas de acceso a la propia información por el volumen del que hablamos.
Las principales fuentes que podremos tener cuenta dentro de este ecosistema pues podrían ser las webs, los medios sociales, las redes sociales son un medio que genera una ingente cantidad de información susceptible de ser analizada, que además manifiesta gustos y tendencias de usuarios que al final son clientes de nuestras empresas, el IoT, machine to machine, el mundo del open data, de los datos públicos, datos biomédicos que al final estamos acostumbrados todos a ver dispositivos wearable, tipos relojes, etcétera, que están midiendo constantes vitales de manera continua. Y a todo ello le sumamos la información generada por los sistemas transaccionales, por los sistemas tradicionales, las aplicaciones, que siguen generando una cantidad muy importante de información.
A continuación vamos a ver los tres problemas a los que el Big Data hace frente. El primero de ellos es el volumen, segundo la velocidad y el tercero la variedad de información. Algunos de ellos, algunos autores añaden el hándicap del valor pero evidentemente nada de esto tendría sentido si no somos capaces de generar un valor a través de la explotación de la información.
En cuanto al volumen, ¿dónde está el problema? Al final, los dispositivos donde guardamos la información, esas memorias, esos discos duros, son dispositivos físicos que se rompen y además tienen un coste. Según la revista Forbes, esa capacidad de almacenamiento no crece al mismo ritmo que el volumen de información que generamos, con lo cual, quizás hoy no sea un problema, pero lo será de aquí aún a un periodo de tiempo.
El siguiente problema al que el Big Data hace frente es la variedad. Históricamente estamos acostumbrados a trabajar con información que encaja en un formato de registros, que se cumple que la misma fuente los genera siempre de la misma manera, actualmente nos encontramos con la problemática de tener que tratar, no solo este tipo de datos, de información estructura, sino también analizar vídeos, imágenes, texto, información no estructurada. En la siguiente imagen podéis apreciar cómo ha ido creciendo el volumen de información desestructurada a lo largo de los últimos años, según la ilustración de EMC2.
La siguiente V sería la velocidad, velocidad en varios sentidos, velocidad porque tenemos que ser capaces de ingerir o de captar la información a la velocidad que es generada, velocidad, hacer frente a la velocidad con la que se distribuye esa información y además debemos ser capaces de practicar análisis de esa información en el tiempo adecuado, para llegar a tiempo a dar ese indicador que favorezca o que ayude a la toma de decisiones.
Y la última V, bueno, pues como hemos dicho antes, no se entendería todo esto, podríamos tener toda la capacidad de almacenamiento del mundo, podríamos tener los mejores modelos y los mejores científicos de datos del mundo y no valdría de nada si no somos capaces de generar valor, algún tipo de beneficio a través del uso de estas tecnologías y del análisis de datos.
Resumiendo, tenemos los tres problemas que se nos presentan el ecosistema Big Data, el volumen, la variedad y la velocidad y tenemos soluciones tecnológicas que nos ofrecen paliar estos problemas. Contra el volumen podemos utilizar el procesamiento bach, contra la velocidad podemos utilizar el procesamiento de streaming en tiempo real y para paliar el procesamiento de la variedad de información, de información desestructurada o semiestructurada, aparecen tecnologías como las bases de datos No SQL.
Aspectos clave
Objetivos:
- Conocer el Big Data como una de las principales áreas del sector digital en el presente.