Icono del sitio Sandra Arcos

Qué es Big Data

big data

Big Data es el gran volumen de datos que inunda Internet, más que grande este volumen es inmenso y cada día más.

Las grandes corporaciones e instituciones públicas son las que tienen acceso al Big Data porque son las que cuentan con los recursos y herramientas de análisis especiales necesarios para analizar tal cantidad de datos estáticos y dinámicos. El objetivo que realmente persiguen las corporaciones con el Big Data no es meramente acumular información sino convertir ésta en Conocimiento útil para resolver problemas y, principalmente, avanzarse a éstos.

A partir de patrones en estos grandes volúmenes de datos, las máquinas que realizan el análisis de la información pueden predecir eventos futuros. De esta forma, el análisis diagnóstico (¿Qué ha pasado?) se complementa con un avanzado y sofisticado análisis predictivo (¿Qué pasará?) que proporciona a las grandes organizaciones información muy valiosa a cerca de hábitos de consumo, de salud, de tendencias sociales, etc. Pero, además, como resultado del Aprendizaje Automático de máquinas (Machine Learning) las corporaciones pueden contar hoy en día con un análisis prescriptivo que respondería a la pregunta ¿Cuál es la variante del producto que más probabilidades tiene de ser popular entre mi audiencia?

Voy a poner tres ejemplos de uso de Big Data y Machine Learning que vivimos a diario.

¿Sabes cuáles son los 4 grandes retos a los que se enfrenta el Big Data?

➡️El Volumen: miles de millones de usuarios se conectan diariamente a Internet
➡️La Variedad: los datos que, tanto usuarios como empresas y administraciones, van dejando registrados en Internet es muy diverso en su formato y origen. Se vuelcan a diario millones de datos estáticos (como fechas de nacimiento) y dinámicos (como transacciones comerciales)
➡️La Velocidad: si el Big Data no se analiza con suficiente rapidez, el resultado del análisis puede quedar obsoleto en cuestión de minutos. La obtención de resultados en tiempo real es uno de los mayores retos en la gestión del Big Data.
➡️La Veracidad: todos sabemos que existen datos falsos y ocultos en Internet. Desde abrir una cuenta en una red social con unos datos que no son los tuyos (fecha nacimiento o lugar de residencia diferentes) a la eliminación de cookies que sesga las estadísticas de cualquier análisis web.

Estos 4 retos dificultan el registro y el procesamiento de tal cantidad de datos y se necesitan un tipo especial de herramientas de análisis de datos más allá de las convencionales.

La complejidad en la gestión del Big Data se debe sobretodo a que una importante parte de estos datos son No-Estructurados. Para entender qué significa esto vamos primero a ver qué son los datos Estructurados.

Los Datos Estructurados son aquél conjunto de información que se vuelca en formatos tipo tabla, hojas de cálculo o bases de datos relaciones.

Los datos No-Eestructurados no se vuelcan en un formato específico sino que los formatos pueden ser múltiples y muy diversos: emails, imágenes, audios, vídeos, comentarios, opiniones, etc

Para que te hagas una idea…

🔎4.021 millones de usuarios se conecta diariamente a Internet
🔎640.000 GB son consumidas por minuto en Internet

De entre los diferentes tipos de datos, los datos dinámicos son lo que más volumen de información generan y están presentes en la geolocalización, las redes sociales y los E-commerce. 
El Big Data lo generamos cada día, cada minuto, empresas, administraciones y usuarios a través de:

🔘Canales públicos (como el transporte)

🔘Canales privados (e-commerce, navegación web…)

🔘 Canales sociales (blogs, redes, foros)

🔘Canales Self-Quantified (wereables: dadas auto-monitorizadas por l@s propi@s usuari@s)

Ahora ya sabes un poco más sobre Big Data. A mí es un tema que me apasiona y me gusta compartir este conocimiento con personas que, como tú, quieren saber más sobre el funcionamiento de las máquinas con las que trabajamos cada día.

Salir de la versión móvil