Lago de datos frente a almacén de datos: elegir la arquitectura de datos adecuada

Un vistazo rápido a los almacenes de datos, los lagos y los lagos del delta

March 17, 2022
Modern Data Platform

Antes de empezar, ¿por qué volvían a ser importantes los datos?

Industrias, empresas e ideas enteras se basan en datos. Ya no nos basamos únicamente en decisiones instintivas. Los datos se han convertido en la fuerza impulsora de la toma de decisiones. TU toma de decisiones.

Lo que hace que los datos sean elementales es la posibilidad de comprender cómo se comportarán los clientes e interactuarán con su marca.

Cuando la publicidad se hizo popular en el siglo XX, tuvimos una idea de lo que la gente quería, probablemente una navaja afilada para hombres de negocios de entre 18 y 50 años y medias para mujeres coquetas en edad de casarse.

Por supuesto, hoy sabemos que las mujeres también se afeitan y que algunos hombres usan medias, todo gracias a los datos que nos dan voluntariamente a través de sus dispositivos.

Métodos de almacenamiento

¡Genial! Estamos en la misma página: los datos son el nuevo oro, la forma en que los utilizamos define nuestra ventaja competitiva. ¿El problema? Hay mucho y es necesario guardarlo en algún lugar para que sea accesible y útil. Recuerda que este es nuestro oro, no guardarías tu oro en ningún lado.

Probablemente haya oído hablar de los almacenes de datos y lagos, probablemente debido a la exageración que rodea a estos últimos. Una discusión común es cuál es la mejor alternativa. Una respuesta no tan común: Depende.

Ahora, quieres tener tu propio Fort Knox personal, pero ¿dónde?

Como el oro reluciente en los ríos turbulentos, los datos pueden conservarse en los lagos sin procesar y sin procesar. O puedes moldearlo en lingotes y guardarlo en los estantes de un almacén ordenado.

Al igual que comparar a un par de hermanos queridos, uno no es mejor que el otro. Todos somos diferentes y buenos en ciertas cosas, el mismo concepto se aplica aquí. La elección del método de almacenamiento debe basarse en las necesidades específicas de su empresa. En algunos casos, la solución ideal puede ser una combinación de ambos métodos. Vamos a desglosarlo.

Almacén de datos

Como su nombre indica, es un almacenamiento o repositorio donde se guardan todos los datos de una empresa, podemos considerarlo como el de la organización única fuente de verdad.

Este sistema toma datos, tanto actuales como históricos, de una variedad de fuentes, tanto internas como externas, y los centraliza y consolida en un solo lugar.

Toda esta información es como el agua natural. Si queremos abastecer de agua a una aldea, no nos limitaremos a construir una tubería o abrir las compuertas. Tenemos que asegurarnos de que el agua esté limpia, de modo que pueda fraccionarse y luego usarse.

Esa es la otra cara del trabajo de un almacén de datos: no se trata solo de almacenar toda el agua, sino de limpiarla, procesarla y filtrarla para que sea potable para la aldea. Su almacén de datos hace que los datos sin procesar sean agradables y útiles para sus empleados mediante un esquema y una estructura jerárquica claros.

Imagina que tienes un montón de información, números y letras que no apuntan a ninguna parte. Este sistema, por ejemplo, puede clasificarlos en: nombres, direcciones, edades y ocupaciones.

De repente, no solo nos fijamos en las cifras, sino en información útil y comprensible que nos permita ofrecer tus productos y servicios de acuerdo con las necesidades o los atributos específicos de los clientes.

Su fuente de agua cruda se convierte en una botella de agua pura con toda la información del usuario escrita en la etiqueta. Todo su almacén de datos funciona como un gran armario lleno de aguas embotelladas donde cada empleado puede coger una y leer la etiqueta.

Es posible que haya escuchado (o haya tenido experiencia de primera mano) con los almacenes de datos antiguos. Eran difíciles de escalar, eran increíblemente rígidos y requerían un mantenimiento constante por parte de los administradores de bases de datos para que funcionaran correctamente. Los almacenes de datos antiguos no estaban diseñados para tener más de una instancia en ejecución. Todo esto terminó ralentizando a sus analistas.

Afortunadamente, eso es cosa del pasado: las nuevas tecnologías, como Redshift, BigQuery y Snowflake, cambiaron las reglas del juego. Todas ofrecen almacenes de datos basados en la nube, que son fáciles de escalar según sus necesidades. No solo eso: todos ellos permiten almacenar y consultar datos semiestructurados como JSON, Avro o Parquet.

Los almacenes de datos han recorrido un largo camino y están más que a la altura de las tareas de datos modernas.

Lago de datos

Antes de entrar en esto, aclaremos una cosa: Los lagos de datos no son el almacén de datos mejorado ni la versión 2.0. Un lago de datos es un método de almacenamiento diferente e independiente. Sabemos que probablemente ya tengas sed, pero nos vamos a quedar con las metáforas del agua por un poco más de tiempo.

A diferencia de un almacén de datos, un lago de datos no tiene compuertas, por lo que entra toda el agua bruta y todo lo que contiene. En este caso, para evitar inundar un pueblo, supongamos que construyes un lago artificial y quieres llenarlo. Dejas que entre toda el agua y te quedas con un contenedor de datos crudos y sin procesar.

Probablemente ahora escuches el sonido de una alarma en tu cabeza. ¿No será almacenar todos mis datos increíblemente ¿caro? ¡Probablemente necesite el hardware más reciente y caro para que esto funcione! Puede que eso haya sido cierto en el pasado, pero no ahora.

El hardware es ahora una mercancía: económico, ampliamente disponible y fácilmente intercambiable con hardware similar de su tipo. Los lagos de datos se crearon para aprovechar eso. Están hechos de varias máquinas que forman un racimo.

Todas las máquinas que forman parte del clúster ejecutan el mismo software y coordinan las tareas y los recursos entre sí. Los clústeres actúan como una gran máquina formada por varias máquinas más pequeñas. ¿Necesita ampliarse? ¡Solo tienes que añadir una nueva instancia! ¡No hay límites establecidos! Su hardware ni siquiera tiene que ser el mismo: los lagos de datos resumen la necesidad de utilizar un determinado proveedor de hardware.

Todos los datos que podemos recopilar, independientemente de su tamaño o tipo, pasan a este clúster sin filtrar ni procesar. Esto puede parecer un poco complicado, pero tienes todos los datos disponibles cuando quieras y puedes hacer lo que quieras con ellos.

No requiere un sistema complejo de carga y extracción, pero tampoco diferencia entre el agua que proviene de una cascada, la lluvia o una fuente de agua subterránea. Aunque la entrada es diferente, ya que, para empezar, no se trata de datos procesados, un lago al que entra tanta cantidad rápidamente se convierte en un pantano y, muy pronto, no se puede ver mucho a través del agua.

Al igual que un lago real, necesita un poco de mantenimiento y filtrado. Se han establecido mecanismos definidos para catalogar los datos y garantizar su seguridad, por ejemplo: controles de gobernanza y coherencia.

La flexibilidad que ofrece un lago de datos es un arma de doble filo. Cuando no está completamente seguro de lo que va a hacer con sus datos, ofrece una gran flexibilidad, pero si se vuelve demasiado flexible y comienza a recopilar demasiados datos sin un objetivo claro en mente, puede convertirse en un pantano. Una vez que sepa lo que busca, con la ayuda de técnicas de aprendizaje automático podrá bucear en su prístino lago y encontrar solo datos útiles.

Otro aspecto clave a tener en cuenta: Calidad Terminado. Cantidad. Hacer que un lago sea más grande con el único objetivo de tener más datos disponibles para el análisis no tiene sentido. Una buena costumbre es cuestionar siempre la consistencia y la calidad que buscamos, lo que equivale a un salto: Empieza con un objetivo claro en mente. ¿Qué necesitas?

Diferencias clave

Al igual que los gemelos, cuando se mira de cerca, las diferencias comienzan a destacarse con bastante claridad:

Almacén de datosData LakeEstructura de datosSorteo procesadoPropósito de los datosActualmente en usoAún no se ha determinadoUsuarios de datosProfesionales de negociosCientíficos de datosAccesibilidad de los datosRestringido Altamente accesible

Estructura de datos: procesados frente a sin procesar

Los DW son silos de información organizada procesada, mientras que los DL son contenedores de materia prima. Los datos introducidos en un almacén se procesarán y catalogarán de acuerdo con parámetros predeterminados. Una empresa de calzado tendrá parámetros predefinidos para almacenar nombres, direcciones, edades y tallas de zapatos, pero probablemente no le interese el nombre de su mascota.

En un lago, los datos ingresados son sin procesar, no hay jerarquía ni dirección, solo un espacio de almacenamiento ilimitado con todo lo que se ingresa. Supongamos que dirige un negocio que es un poco más difícil de estructurar, por ejemplo, un hospital. Cantidad infinita de enfermedades, notas de médicos y farmacéuticos, estudios, etc. Toda esta información puede resultar un poco abrumadora para un método de almacenamiento tan ajustado y estructurado como un almacén de datos. Tal vez un lago de datos sea más adecuado para una empresa con tantas variables.

Propósito de los datos: en uso o indeterminado.

En un DW hay una necesidad específica para cada dato, los datos de entrada se han procesado y catalogado para un uso específico. Si volvemos a las aguas embotelladas, todos los empleados saben que la primera fila son los clientes A-B y que sus etiquetas contienen: nombre, edad, ocupación y tendencias de búsqueda.

En una DL, la información no está filtrada. Algunos datos pueden tener un uso específico en el futuro. Piensa en el historial médico de un paciente, puede que haya heredado un problema de salud o no, pero mantén los datos disponibles por si acaso. Los datos que ingresamos hoy pueden generar información útil en el futuro para prevenir o comprender una enfermedad que podría manifestarse mañana.

Usuarios de datos: profesionales de negocios frente a científicos de datos

Los datos de DW se utilizan principalmente para gráficos y hojas de cálculo. La mayoría de sus empleados, si no todos, pueden sacar provecho de ello. El único requisito es estar familiarizado con el tema al que se refieren los datos.

DL necesita un usuario con más experiencia. Al igual que un buceador, necesita algunos conocimientos y formación antes de sumergirse en un lago de datos. Los científicos de datos pueden entender y traducir los datos de entrada, por lo que son los usuarios más probables.

Accesibilidad a los datos: restringida frente a flexible

Es más difícil realizar cambios estructurales en un DW una vez que se han definido las estructuras. En el caso de un DL, para empezar, no existe una estructura, lo que facilita el acceso y el cambio. Las modificaciones se llevan a cabo rápidamente debido a la falta de limitaciones.

Lago Delta

Piense en un lago Delta, como lo mejor de ambos mundos. En resumen, es una casa del lago bien cuidada y organizada. Es una capa de almacenamiento de formato abierto sobre un lago de datos, que permite realizar operaciones en streaming y por lotes.

Esto significa que puedes obtener ciertos datos en tiempo real (por ejemplo, cuando ves una película en streaming) o realizar una operación más pensada que procese y organice los datos después de un cierto período de tiempo (por ejemplo, un banco que procese transacciones como las transferencias internacionales de dinero fuera del horario laboral).

Sustituye los silos de datos por un único lugar para tres niveles diferentes de datos: estructurados, semiestructurados y no estructurados.

Soporta transacciones ACID, usando Apache Sparky la aplicación de esquemas, lo que proporciona la confiabilidad de la que carecen los lagos de datos normales.

Pero, ¿qué es el ACID?

El mundo de la TI tiene un impulso con acrónimos divertidos, que en realidad significan: atomicidad, consistencia, aislamiento y durabilidad.

  • Atomicidad: Una transacción debe completarse al 100% o no se realizará en absoluto en caso de que algo salga mal. Esto garantiza que no haya procesos incompletos.
  • Consistencia: Cualquier cambio en un proceso tiene que pasar de un patrimonio válido a otro igualmente válido. Por lo tanto, no hay diferencias ni sorpresas en la transformación.
  • Aislamiento: Ninguna operación puede afectar a otra. Esto evita que cualquier tipo de proceso paralelo se vea afectado por un cambio en sus socios.
  • Durabilidad: Los cambios tienen que durar. Incluso si hay alguna deficiencia en el futuro.

Delta Lake: características principales

  • Intercambio de datos abierto y seguro: Protocolo abierto para compartir datos de forma fácil y segura, independientemente de dónde se almacene la información. Los datos compartidos se pueden visualizar y controlar, lo que facilita la satisfacción de las necesidades de seguridad.
  • Manejo escalable de metadatos: Puede gestionar la potencia de procesamiento necesaria para procesar Big Data escalando la información con particiones sin sacrificar la calidad.
  • Viaje en el tiempo: Acceso y posibilidad de modificar versiones anteriores de los datos.
  • Formato abierto: Los datos están disponibles para cualquier persona con las herramientas y los pases correctos.
  • Aplicación de esquema: Capacidad para garantizar que se cumplan los tipos de datos, las columnas obligatorias y otros atributos del esquema de datos. Esto garantiza la correcta ingesta de datos.
  • Historial de auditoría: Los usuarios pueden verificar los registros para visualizar los cambios y los comandos ejecutados en tablas, rastrear transacciones, etc.
  • Molesto: Los usuarios pueden insertar y actualizar registros sin esfuerzo.

Finalizando

Y el ganador es... Drum Roll Please... Bueno... Depende. El objetivo de esta entrada de blog es que, si bien los lagos de datos son más nuevos, los Delta Lakes son geniales y brillantes, y los almacenes de datos pueden parecer un poco antiguos, cada arquitectura tiene sus ventajas y desventajas, y no hay una arquitectura adecuada para cada empresa y cada conjunto de necesidades. Antes de elegir, es fundamental hacer las preguntas correctas y planificar realmente lo que se busca. Sin mencionar que es posible que necesite una combinación de diferentes arquitecturas en función de lo variadas que sean sus necesidades.

¿Necesita ayuda para elegir la mejor arquitectura para su empresa y sus necesidades? ¿Cree que ha llegado el momento de actualizar su pila de datos o implementar un pila de datos moderna ¿desde cero? Siempre disfrutamos de los desafíos, póngase en contacto con nuestro equipo de expertos en datos en cualquier momento.

Esperamos que esta publicación te haya resultado útil y, al menos, entretenida. Si te ha gustado lo que has leído hasta ahora, tienes unas increíbles habilidades de desarrollo y te gusta aplicar el aprendizaje automático para resolver desafíos empresariales difíciles, consulta nuestra vacantes de equipos.

Share article.
News & insights

Latest Insights

Muttdata
Empresa

¿Cómo sabes que es hora de hacer evolucionar tu marca?

Evolucionar nuestra marca para que esté a la altura de nuestro crecimiento
Read Article
Modern Data Platform

El lenguaje natural se une a los datos en tiempo real: análisis sin cuellos de botella

Obtenga información sin necesidad de conocimientos técnicos
Read Article
Paid Media Optimizer

No todos los optimizadores de medios online están diseñados de la misma manera

5 razones por las que deberías solicitar una demo
Read Article

Listo para desbloquear

¿el poder de los datos?