¿Qué es un data lake?

Compártelo

Un data lake es un repositorio de almacenamiento centralizado que contiene big data de varias fuentes en un formato granular y sin procesar.

El término «data lake» fue acuñado por James Dixon, director tecnológico de Pentaho, y hace referencia a la naturaleza particular de los datos de un data lake, a diferencia de los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos.

Los data lakes suelen estar configurados sobre un clúster de hardware de consumo económico y escalable. Esto permite volcar los datos al data lake por si se necesitan más adelante sin tener que preocuparse por la capacidad de almacenamiento. Los clústeres pueden existir localmente o en la cloud.

Ventajas de un data lake

Un data lake funciona a partir de un principio llamado schema-on-read o esquema contra escritura. Esto significa que no existe un esquema predefinido en el que deban encajarse los datos antes de almacenarlos. Tan solo cuando los datos se leen durante el tratamiento se analizan y adaptan en un esquema según convenga. Esta característica ahorra mucho tiempo que normalmente se dedica a la definición del esquema. Esto también permite almacenar datos tal y como estén, en cualquier formato.

Los científicos de datos pueden acceder, preparar y analizar datos más rápidamente y con mayor precisión gracias a los data lakes. Para los expertos en analítica, este amplio conjunto de datos (disponibles en distintos formatos no tradicionales) ofrece una oportunidad de acceso a los datos para una amplia gama de casuísticas, como análisis de sentimiento o detección de fraude.

Data lakes frente a almacenes de datos

Un data lake y un almacén de datos son semejantes en su finalidad y objetivo fundamentales, motivo por el que se confunden fácilmente:

Ambos son repositorios de almacenamiento que consolidan los distintos depósitos de datos de una organización.
El objetivo de ambos es crear un depósito de datos único que alimente distintas aplicaciones.

No obstante, existen diferencias básicas entre los dos que los convierte en idóneos según en qué situación.

Schema-on-read o schema-on-write: el esquema de un almacén de datos está definido y estructurado antes del almacenamiento (se aplica el esquema mientras se escriben los datos). Por contra, un data lake no tiene ningún esquema predefinido, lo que le permite guardar datos en su formato nativo. Por consiguiente, en un almacén de datos la mayoría de la preparación de los datos suele ocurrir antes de ser procesados. En un data lake, se produce más adelante, cuando los datos se utilicen realmente.
.
Accesibilidad de usuario compleja o simple: como los datos no están organizados en un formato simplificado antes del almacenamiento, un data lake suele requerir un experto que comprenda perfectamente los distintos tipos de datos y sus relaciones para poder leerlos.
Por contra, un almacén de datos es fácilmente accesible tanto para usuarios tecnológicos como inexpertos, debido a su esquema bien definido y documentado. Incluso un nuevo miembro de un equipo puede empezar a utilizar un almacén en muy poco tiempo.
.
Flexibilidad o rigidez: con un almacén de datos no solo se tarda tiempo en definir el esquema en un primer momento, sino que también consume considerables recursos modificarlo cuando los requisitos cambian en un futuro. Sin embargo, los data lakes pueden adaptarse fácilmente a los cambios. Además, a medida que la necesidad de capacidad de almacenamiento aumenta, más fácil resulta escalar los servidores de un clúster de data lakes.

Conoce nuestro Magister Data Science (ceupe.cl)