¿Lago de datos? (qué es y para qué sirve Data lake)

El mercado global de los 'data lakes' aumentará hasta los 80.000 millones de dólares de cara a 2025, según un informe de Global Market Insights. Conocer el funcionamiento de estos grandes repositorios de datos, su arquitectura y sus diferencias con los 'data warehouses' puede ayudar a sacar el máximo partido a los datos y mejorar la toma de decisiones estratégicas.

Image description

La transformación digital de las compañías, las redes sociales, los dispositivos conectados… El volumen de datos ha aumentado exponencialmente en los últimos años y de cara a 2025 está previsto que se dupliquen. Tecnologías como el 'big data'o el 'data mining', que permiten recopilar, procesar y extraer información de estos datos, se han convertido en dos herramientas imprescindibles para las empresas, que utilizan los volúmenes de datos para extraer información de utilidad que les permita optimizar su toma de decisiones. Pero para almacenar estos grandes volúmenes de datos, hace falta otra piedra angular: el 'data lake' o lago de datos.

El concepto de 'data lake' tiene sus orígenes en 2010, cuando James Dixon, antiguo CTO de una plataforma de inteligencia de negocio, lo utilizó por primera vez en su blog personal. Desde entonces, ha ganado popularidad hasta convertirse en uno de los pilares sobre los que se fundamentan las estrategias de análisis de datos de las compañías.

De hecho, un reciente informe de Global Market Insights apunta a que el mercado global de los 'data lakes', que alcanzó los 12.900 millones de dólares en 2022, crecerá con un CAGR (tasa de crecimiento anual compuesta) de más del 20% entre 2023 y 2032, hasta superar los 80.000 millones de dólares. Comprender el funcionamiento y ventajas de estos repositorios será clave para que las empresas puedan seguir creciendo en el mercado.

¿Qué es un 'data lake' o lago de datos?

Un 'data lake' o lago de datos puede definirse como un repositorio donde se almacenan volúmenes masivos de datos en su formato nativo, es decir, sin procesar, para retener todos sus atributos originales. Este repositorio no tiene límite de tamaño y en él se pueden almacenar datos de tres tipologías distintas:

Estructurados. Son aquellos que tienen un formato estandarizado, con patrones claramente predefinidos. En esta categoría se enmarcan los archivos de Excel, los datos de control de inventario o los resultados de los formularios web, entre otros.

No estructurados. Son aquellos que no tienen un formato definido, es decir, no tienen una estructura uniforme. Este tipo de datos son los más abundantes. Los vídeos, las imágenes, los audios, los correos electrónicos o los contratos son algunos ejemplos que conforman esta categoría.

Semiestructurados. Son aquellos que, pese a tener un formato definido, no resultan fácilmente comprensibles. En esta categoría se incluyen las etiquetas de lenguaje HTML, los correos electrónicos o los gráficos, por ejemplo.

Los datos que se almacenan dentro de un 'data lake' se guardan en su formato nativo, es decir, sin procesar y con sus atributos originales, lo que permite a las empresas ejecutar distintos tipos de análisis para extraer información. Sectores como el sanitario, que puede utilizar los datos almacenados para mejorar la atención a sus pacientes, o el financiero, que puede aprovechar los datos para, entre otros, disminuir los riesgos de fraude, son algunos de los que pueden beneficiarse de estos repositorios.

En este marco, BBVA ha seleccionado recientemente a Amazon Web Services (AWS) para utilizar sus servicios de analítica avanzada y datos en la nube. Mediante este acuerdo, la plataforma combinará las tecnologías de 'data lakes' y 'data warehouses' para proporcionar a las unidades de negocio de la entidad bancaria una visión integrada de sus datos, facilitando un acceso más eficiente al procesamiento, análisis y extracción de conocimiento de los datos.

¿Cómo sacar valor a los datos almacenados por los 'data lakes'?

Los 'data lakes' son la fuente que alimenta la analítica de datos. A partir de los datos recopilados en estos repositorios, las empresas pueden extraer información de valor, como los gustos y preferencias de los usuarios o la evolución de las ventas, y optimizar su toma de decisiones, definiendo estrategias que ayuden a impulsar su crecimiento dentro del mercado.

Para manipular e interpretar eficazmente los datos almacenados, no obstante, es importante implementar una arquitectura que reúna los siguientes componentes clave:

Ingesta de datos. Deben contar con un sistema de capas de ingesta que sea fácilmente escalable y que pueda extraer datos de diversas fuentes, ser capaces de procesar datos tanto en tiempo real como por lotes y poder admitir cualquier tipo de dato, independientemente de su naturaleza.

Almacenamiento de datos. El sistema debe ser capaz de almacenar y tratar grandes volúmenes de datos sin procesar y de soportar sistemas de cifrado y compresión de datos.

Seguridad de datos. El sistema debe ofrecer la máxima seguridad, independientemente del tipo de datos que almacenen.

Analítica de datos. Los datos almacenados en los 'data lakes' deben poder analizarse de forma ágil y eficiente a través de herramientas de análisis de datos o del propio 'machine learning' (aprendizaje automático), a fin de extraer información de interés.

Gobierno de datos. Todo el proceso de ingesta, preparación, categorización, integración y disponibilización de los datos debe estar acompañado de un modelo de gobierno que facilite entender qué significan los datos, qué calidad tienen, dónde y cuándo están disponibles y finalmente quién los puede consultar. Además, este modelo debe garantizar un seguimiento de todos los cambios que se produzcan en el ciclo de vida de los datos.

Diferencias entre un 'data lake' y un 'data warehouse'

Los 'data lakes' suelen emplearse de manera conjunta con otro sistema que permite el almacenamiento y procesamiento de grandes volúmenes de datos: los 'data warehouses' (almacenes de datos, según su traducción al español). Estos dos repositorios guardan importantes semejanzas, en el sentido de que los dos se emplean para recopilar datos, pero entre ambos existen diferencias que conviene conocer:

Naturaleza de los datos. Los 'data lakes' pueden recopilar todo tipo de datos, independientemente de su naturaleza, mientras que los 'data warahouses' sólo almacenan datos estructurados.

Formato de los datos. Los 'data lakes' almacenan datos en crudo, es decir, con sus atributos originales, mientras que los 'data warehouses' almacenan datos ya procesados.

Fuente de los datos. Mientras que la información de los 'data lakes' proceden del 'big data', el internet de las cosas, las redes sociales o los datos de las plataformas de 'streaming'; los 'data warehouses' se alimentan de datos de aplicaciones, negocios, transacciones o reportes.

Escalabilidad. Los 'data lakes' pueden escalar de manera sencilla y a un bajo coste, mientras que la escalabilidad de los 'data warehouses' es más compleja.

Usos. Los datos recopilados por los 'data lakes' pueden emplearse para realizar análisis predictivo o en tiempo real, así como para alimentar los algoritmos 'machine learning', mientras que los 'data warehouses' pueden emplearse para realizar informes o para sustentar la inteligencia de negocios.

Los datos se han convertido en una pieza clave del entorno empresarial. BBVA, por ejemplo, cuenta con una factoría especializada en inteligencia artificial, AI Factory, y con un total de casi 5.000 profesionales de datos, entre científicos, ingenieros y especialistas. Además, ha formado a más de 50.000 empleados en datos y recientemente ha creado la disciplina de Business Analytics para agrupar, coordinar y reforzar las funciones de sus especialistas de datos.

Mientras el volumen de datos siga creciendo, contar con un buen 'data lake' será clave para que las empresas puedan mantenerse al filo de la vanguardia.

Tu opinión enriquece este artículo:

Una ruta que ya no es de pasada (con más de 10 millones de dólares de inversión la 101 crece con Roma Polo Empresarial)

Roma 101 Polo Empresarial, un predio especialmente diseñado para empresas de todo tamaño, sigue haciendo crecer una de las zonas de mayor expansión del departamento de Canelones: la Ruta 101, más precisamente lo que se conoce “el triángulo”, el espacio conformado por Zonamerica, el Aeropuerto Internacional de Carrasco y Pando. Para conocer más el presente de Roma 101 Polo Empresarial, dialogamos con Jerónimo Etcheverry, director comercial y socio de Álamo Inmuebles Logísticos e Industriales.  

Hard Rock Café Montevideo incursionará en fiestas +45 y Stand Up (¿abre Punta del Este?)

(Por Mathías Buela) “Queremos extender el horario de las noches con fiestas de oldies destinadas a personas de más de 45 años, gente que no va a bailar a las tres de la mañana a un boliche, porque hoy no hay propuestas así en Montevideo. Hoy abrimos de 12:00 a 00:00 hs pero queremos organizar eventos así que vayan hasta la 01:00 o 02:00 de la mañana. Estamos planificando hacerlas una o dos veces al mes", dijo el gerente General.

La uruguaya Salado Films ayudó a construir 21 réplicas de F1 para la serie de Ayrton Senna (y ahora se pueden comprar)

(Por Mathías Buela) El descubrimiento de los vehículos se hizo en la ciudad argentina de Balcarce, donde nació el histórico piloto Juan Manuel Fangio. “Fue muy lindo llegar a ver los autos por primera vez y ver en la plaza del pueblo una bandera brasileña y una uruguaya, porque todo el pueblo sabía lo que estaba pasando”, dijo el director de la empresa uruguaya.

Conectar cara a cara (Speed Match revoluciona el networking con citas a ciegas presenciales)

(Por Antonella Echenique) Las nuevas tecnologías están transformando la manera en que nos conectamos. Antes de la era digital, las personas se comunicaban y se conectaban en persona. Sin embargo, con la llegada de la comunicación digital, ese paradigma cambió. ¿Y ahora qué? Conocer a alguien es tan simple como deslizar un dedo en una aplicación de citas o seguir a una persona en redes sociales. A pesar de la comodidad que ofrecen estas herramientas, Speed Match busca recuperar la esencia de las conexiones reales.

Matías Olea es el nuevo gerente general del Citi UY

El banco Citi anunció el nombramiento de Matías Olea como citi country officer (CCO) y banking head para Uruguay, reportando a Federico Elewaut, head del clúster Latinoamérica Sur (LAS) y banking head para el clúster LAS. Este nombramiento está sujeto a la aprobación regulatoria por parte del Banco Central del Uruguay.