Con la explosión de los datos, se han convertido en el nuevo recurso natural y como tal tienen que pasar por un proceso para obtener valor de ellos.
El proceso de transformar y obtener valor de los datos es como sigue:
1. Hay que investigar dónde se pueden encontrar
- De qué fuentes vienen
- Si se puede tener acceso a la fuente
- Con qué frecuencia se pueden explotar
- Qué tipos de datos son
2. Una vez identificadas las fuentes hay que hacer la extracción
- Para obtenerlos hay varios esquemas que pueden implicar un movimiento de datos y la creación de un nuevo repositorio para almacenarlos
- También hay nuevos paradigmas para tomar y analizar los datos directo de la fuente
3. Se tienen que preparar para que se puedan utilizar, lo que incluye
- Limpiarlos
- Hacer análisis exploratorio
- Estandarizarlos
- Agregarles datos adicionales
- Transformarlos
- Imputarlos (asignarles un valor cuando no lo tengan)
4. Seleccionar el proceso para obtener valor de los datos
- Establecer el objetivo de negocio
- Modelar los datos
- Dar seguimiento al desempeño del modelo elegido
Tipos de datos
Los datos de forma general se dividen en estructurados y no estructurados.
Estructurados
Son datos con tipos con patrones claramente definidos y que facilitan su búsqueda.
Son aproximadamente el 20% de los datos que existen en el mundo, ejemplos de ellos son los formularios o las bases de datos tradicionales.
No estructurados
Prácticamente son todos los demás datos en los que no podemos clasificar ni buscar de forma sencilla e incluyen formatos como audio, video y comentarios o publicaciones en redes sociales.
Se calcula que actualmente son el 80% de todos los datos que se generan.
La explosión de los datos
Su crecimiento ha sido exponencial en los últimos años y la tendencia es de incremento constante, a continuación podemos ver los datos que se generan en sólo 1 minuto de actividad en internet en diversos canales, con datos de 2018.
Se puede ver que la proporción en que crecen es enorme, por ejemplo sólo en Whatsapp se mandan 38 millones de mensajes cada 60 segundos, mientras que en YouTube se visualizan 4.3 millones de videos.
Cifras enormes si consideramos que eso sucede cada minuto.
Big Data
De ahí se deriva el concepto del Big Data o los datos masivos, que son una cantidad de datos tal, que se hace imposible de administrar.
Por tanto en muchas organizaciones nos encontramos que sólo se almacenan los y generan transacciones con ellos, sin tener la capacidad u oportunidad para analizarlos.
El Big Data presenta algunos obstáculos para sacarle provecho a los datos y tienen que ver con varios factores:
- La información se encuentra en sistemas transaccionales de misión critica a los que no se puede tener acceso en tiempo real para no afectar su operación
- Siguen existiendo silos, datos aislados en sistemas propietarios o viejos de los que es difícil extraer la información
- Costos para integrar nuevas funcionalidades en sistemas legados, cualquier cambio implica una nueva inversión de la que no es claro el valor que reportará. Sobre todo, si se trata de sistemas de administración específicos o enormes inversiones que siguen funcionando como los servidores AS-400 que aún se mantienen en operación
- Temas políticos donde los datos no se comparten en todas las áreas debido a restricciones por seguridad o celo de la propiedad de los datos
- La forma en que se compensa a la gente que hace la captura de información. Se privilegia la rapidez vs. la precisión, lo importante es tener todos los datos posibles sin importar si son correctos o no. Esto genera el problema de basura entra, basura sale; si se ingresa información sin calidad, los análisis y resultados que se obtendrán serán de muy poco valor y no apegados a la realidad.
Es por ello que los datos permanecen guardados, sin aportar ningún valor adicional.
Los datos también tienen otras características que hay que tomar en cuenta para poder obtener beneficios de su análisis y comprender que su procesamiento y preparación es una labor que nunca termina, es constante y se debe de ejecutar en todo momento.
Las cuatro V’s de los datos
Variedad
Hay una enorme diversidad de tipos de datos, más allá de estructurados y sin estructura.
Hay datos en texto libre, de audio, videos, fotografías, mapas, comentarios, ubicaciones, datos de sensores, entre otros.
Velocidad
La rapidez con que se crean nuevos datos es vertiginosa, por ejemplo en YouTube se suben 300 horas de video cada minuto. Eso hace que sea casi imposible estar al día con el contenido de la plataforma.
Volumen
El volumen tiene que ver con la cantidad de información que existe, la cual crece de forma exponencial y rápidamente se hace inmanejable.
Como ejemplo, en WhatsApp se comparten más de 1,000 millones de videos por día.
Veracidad
Una ventaja de Internet es que hace fácil que cualquiera escriba algo, una desventaja es que ahora, quien sea tiene la capacidad de publicar ahí.
Al ser tan fácil crear, publicar y compartir contenido en Internet, la distribución de contenido falso o sin sustento aumenta también como en la siguiente imagen.
Es así que hay que asegurarse de que la información es veraz y fidedigna para poder usarla y, más importante poder hacerlo de forma oportuna para aprovecharla cuando aún es útil.
Hay casos en que los datos tienen una vigencia para ser útiles, como en el caso de las noticias del periódico, las noticias de ayer ya no son útiles hoy.
Es por eso que los Datos Masivos nos ayudan a pasar de almacenarlos a analizar la información de forma proactiva y que genere resultados al negocio.