Big Data es el gran volumen de datos que inunda Internet, más que grande este volumen es inmenso y cada día más.
Las grandes corporaciones e instituciones públicas son las que tienen acceso al Big Data porque son las que cuentan con los recursos y herramientas de análisis especiales necesarios para analizar tal cantidad de datos estáticos y dinámicos. El objetivo que realmente persiguen las corporaciones con el Big Data no es meramente acumular información sino convertir ésta en Conocimiento útil para resolver problemas y, principalmente, avanzarse a éstos.
A partir de patrones en estos grandes volúmenes de datos, las máquinas que realizan el análisis de la información pueden predecir eventos futuros. De esta forma, el análisis diagnóstico (¿Qué ha pasado?) se complementa con un avanzado y sofisticado análisis predictivo (¿Qué pasará?) que proporciona a las grandes organizaciones información muy valiosa a cerca de hábitos de consumo, de salud, de tendencias sociales, etc. Pero, además, como resultado del Aprendizaje Automático de máquinas (Machine Learning) las corporaciones pueden contar hoy en día con un análisis prescriptivo que respondería a la pregunta ¿Cuál es la variante del producto que más probabilidades tiene de ser popular entre mi audiencia?
Voy a poner tres ejemplos de uso de Big Data y Machine Learning que vivimos a diario.
- Spam en el email: cada vez que un correo es detectado como spam por nuestro proveedor de email y lo coloca automáticamente en la carpeta de Spam esto es Machine Learning. La máquina ha aprendido, a partir del análisis y aprendizaje de unos patrones determinados, a detectar qué tipo de emails no son de nuestro interés.
- Música online: un amigo me contaba que el día de su cumpleaños uno de sus proveedores de música online reprodujo automáticamente su canción favorita. ¿Magia? No, Machine Learning. Esta canción la había escuchado durante el último año más que ninguna otra. La máquina había analizado todas las canciones escuchadas, guardadas, compartidas, etc. y dio, como resultado de un análisis prescriptivo, la que sería, con más probabilidades, la canción favorita de mi amigo.
- Buscadores: cada vez que buscas una información en un buscador utilizando unas palabras clave, el buscador rastrea Internet en busca de páginas web que encajen con las palabras clave que le has solicitado, realizando este primer filtro. Pero, además, de acuerdo a tu historial de búsquedas registradas, el buscador habrá aprendido qué páginas serán más interesantes y útiles para ti, realizando este segundo filtro. El resultado será una lista de páginas con las más altas probabilidades de que encajen con tus preferencias personales.
¿Sabes cuáles son los 4 grandes retos a los que se enfrenta el Big Data?
➡️El Volumen: miles de millones de usuarios se conectan diariamente a Internet
➡️La Variedad: los datos que, tanto usuarios como empresas y administraciones, van dejando registrados en Internet es muy diverso en su formato y origen. Se vuelcan a diario millones de datos estáticos (como fechas de nacimiento) y dinámicos (como transacciones comerciales)
➡️La Velocidad: si el Big Data no se analiza con suficiente rapidez, el resultado del análisis puede quedar obsoleto en cuestión de minutos. La obtención de resultados en tiempo real es uno de los mayores retos en la gestión del Big Data.
➡️La Veracidad: todos sabemos que existen datos falsos y ocultos en Internet. Desde abrir una cuenta en una red social con unos datos que no son los tuyos (fecha nacimiento o lugar de residencia diferentes) a la eliminación de cookies que sesga las estadísticas de cualquier análisis web.
Estos 4 retos dificultan el registro y el procesamiento de tal cantidad de datos y se necesitan un tipo especial de herramientas de análisis de datos más allá de las convencionales.
La complejidad en la gestión del Big Data se debe sobretodo a que una importante parte de estos datos son No-Estructurados. Para entender qué significa esto vamos primero a ver qué son los datos Estructurados.

Los Datos Estructurados son aquél conjunto de información que se vuelca en formatos tipo tabla, hojas de cálculo o bases de datos relaciones.

Los datos No-Eestructurados no se vuelcan en un formato específico sino que los formatos pueden ser múltiples y muy diversos: emails, imágenes, audios, vídeos, comentarios, opiniones, etc
Para que te hagas una idea…
🔎4.021 millones de usuarios se conecta diariamente a Internet
🔎640.000 GB son consumidas por minuto en Internet
De entre los diferentes tipos de datos, los datos dinámicos son lo que más volumen de información generan y están presentes en la geolocalización, las redes sociales y los E-commerce.
El Big Data lo generamos cada día, cada minuto, empresas, administraciones y usuarios a través de:
🔘Canales públicos (como el transporte)
🔘Canales privados (e-commerce, navegación web…)
🔘 Canales sociales (blogs, redes, foros)
🔘Canales Self-Quantified (wereables: dadas auto-monitorizadas por l@s propi@s usuari@s)
Ahora ya sabes un poco más sobre Big Data. A mí es un tema que me apasiona y me gusta compartir este conocimiento con personas que, como tú, quieren saber más sobre el funcionamiento de las máquinas con las que trabajamos cada día.
You must log in to post a comment.