Pila de datos moderna

Tu restaurante con 3 estrellas Michelin

January 26, 2022

Data Stack: tu restaurante con 3 estrellas Michelin

¿Qué es?

La pila de datos proviene de «pila tecnológica», es decir, todas las combinaciones de tecnologías utilizadas para hacer que los datos sean útiles y agradables para todas las partes involucradas. Principalmente, admite el almacenamiento, la administración y el acceso a los datos.

Cada siglo tiene un recurso nuevo y precioso que explotar y progresar. Bueno, los datos son el petróleo del siglo XXI. La cantidad de datos que podemos recopilar hoy en día es a) incomparable con cualquier cosa que hayamos visto antes b) extremadamente útil para satisfacer todas las necesidades empresariales.

¿Alguna vez has sentido que tu teléfono te escucha porque no hay forma de que pueda saber lo que necesitas del producto o servicio que acaba de aparecer ante tus ojos? Bueno, no es un espía. Son datos bien utilizados.

¿Cómo funciona?

Los datos en sí mismos no son realmente tan útiles, considérelos como un montón de ingredientes aleatorios. Necesitarás mucho más que eso para administrar un restaurante. Es por eso que Data Stacks ofrece:

Almacenaje: Tecnologías que permiten almacenar todos los datos en un solo lugar. La despensa para tus ingredientes.

Cargando: Los procesos responsables de extraer los datos de los sistemas de origen y cargarlos en el sistema de almacenamiento. En cierto modo, estos serían sus proveedores de ingredientes.

Transformando: Esta etapa es la que hace que los datos sean útiles para el consumo. Sus chefs. Toman datos sin procesar y los transforman en algo apetecible.

Análisis: Aquí es donde puede empezar a obtener información significativa del proceso. Básicamente, servirlo a los usuarios. ¡Buen provecho!

Todo el proceso proporciona un plato principal elaborado según sus gustos y necesidades, es decir, lo que es mejor para su negocio.

¿No teníamos algo así antes?

La pila de datos es un término genérico que se utiliza a menudo para referirse a un conjunto de tecnologías utilizadas para construir el sistema analítico de una empresa.

Y siempre han estado presentes.

Pero ahora también tenemos el Modern Data Stack, que es una versión mejorada de ciertas cualidades del Data Stack.

Los tiempos de antaño

Hubo un tiempo antes de 2012 en el que el manejo de datos era un proceso bastante caro y lento. También tenía otros problemas:

Almacenamiento local

El almacenamiento local significaba dos cosas: disponía de poco espacio y era caro. Tenías que tener mucho cuidado con lo que almacenabas, porque no podías desperdiciar dinero ni espacio en datos inútiles. Pero hoy en día, sabemos que cada pequeño dato es útil; solo hay que ponerlo en contexto y «cocinarlo» correctamente. Estas limitaciones eran cruciales, ya que era como tener una cocina muy pequeña con poco espacio en la despensa y tener que servir solo sopa de tomate.

ETL: E = Extraer; T = Transformar; L = Cargar

Extraiga datos de fuentes externas, transfórmelos en un formato de almacenamiento para obtener información útil y cárguelos en la base de datos. Esto tenía sentido cuando un grupo pequeño (como el departamento de TI) controlaba todo el acceso a los datos de la organización.

Siguiendo con las alegorías gastronómicas, en el método ETL los chefs tenían que reunir los ingredientes (limitados), picarlos finamente y guardarlos en su (pequeña) despensa.

Este método no tiene nada de malo, de hecho, los ETL siguen siendo relevantes y útiles, solo depende de las necesidades de su empresa.

Por ejemplo, supongamos que el único propósito de su sistema analítico era producir un informe con la cantidad de ventas por día, entonces la forma más lógica y eficiente de proceder sería una ETL, donde se extraen los datos del sistema CRM y solo se agrega la cantidad de ventas por día.

Esto ocuparía la menor cantidad de espacio en su almacenamiento, un método excelente cuando las computadoras y los sistemas de almacenamiento son muy caros.

Por lo tanto, si su restaurante funciona bien con un menú limitado, entonces esto funcionará perfectamente para usted. Sin embargo, si quieres ampliar tu base de datos para conocer, por ejemplo, los importes de ventas por día de cada sucursal y cliente, necesitarás escribir una nueva ETL que cree y actualice una tabla con esas características.

¿Qué significa esto?

El uso de los ETL para almacenar la menor cantidad de datos requiere menos recursos (y dinero), pero limita la libertad de los analistas, a menos que un ingeniero de datos desarrolle nuevos ETL constantemente para suministrar datos que se adapten a sus necesidades.

Sin autoservicio

Si quería extraer datos del almacén, tenía que esperar a que alguien que conociera SQL decidiera ayudarlo. Una vez más, solo hay una pequeña escalera en la cocina y no puedes usarla para llegar a tu despensa si alguien más la estaba usando.

¿Cuál es la mayor debilidad de los ETL y el almacenamiento local? No son tan fáciles de ampliar. No hay problema en tener una pequeña despensa en tu restaurante cuando tienes pocos comensales, pero tan pronto como tu negocio crezca, necesitarás ampliar tu almacén urgentemente.

Ese era un pequeño problema con las antiguas formas, la falta de escalabilidad de las herramientas y el software utilizados.

Cuando la solución inicial no era suficiente, el trabajo de reescalado era un proceso muy lento y costoso, ya que se trataba de un trabajo manual que requería que los ingenieros de software trabajaran para resolver los problemas. Y dado que errar es algo humano, de todos modos podría ser un trabajo defectuoso después de mucho trabajo.

Con la introducción de nuevas tecnologías e innovaciones, pudimos entrar en una nueva era de manejo de datos.

El ahora

Almacenamiento en la nube

Empresas como Amazon, Google y Microsoft permiten a las organizaciones almacenar todos sus datos en un solo lugar, de forma mucho más económica que antes. De repente, el espacio de la despensa y la cocina se duplicó y triplicó para obtener unos centavos.

ELT: E = Extraer; L = Cargar; T = Transformar

¿Recuerdas cuando tenías un equipo pequeño que controlaba los datos de la organización? Bueno, ahora hay demasiados equipos y usuarios que lo necesitan. Un grupo pequeño (de chefs) no puede procesar todos los datos y proporcionárselos. Además, usar el mismo formato de almacenamiento para todo ya no es eficiente. (Ahora no solo estás haciendo sopa de tomate, ¡deja de intentar picar todos los ingredientes antes de guardarlos!)

Un proceso ELT le permite cargar datos en el almacén antes de que se transformen y, a continuación, permite a los usuarios empresariales transformarlos ellos mismos de la manera más eficiente que deseen. (No más queso picado, puedo guardarlo entero ahora y rallarlo más tarde).

Las principales ventajas de una pila de datos como esta son:

Tiempo reducido: No más pérdidas de tiempo en la zona de espera del almacén. Como dijimos antes, la escalabilidad ha sido el motor detrás de la mayoría de las mejoras del almacén de datos. Dejar de depender de los codos para hacer cosas ha hecho que la gestión de datos sea mucho más rápida y útil.

También es importante elegir sabiamente entre qué fuente de datos es la mejor para su empresa. Las mejores opciones son los almacenes de datos o los lagos de datos.

Los lagos de datos son estanques, sin ningún juego de palabras, de datos sin filtrar y sin procesar.

¿Cuál es la diferencia entre esos dos? Te preguntarás, bueno:

  1. Lakes mantiene todos los datos disponibles, mientras que los almacenes deciden qué es importante y qué es superfluo.
  2. Data Lake admite todos los tipos de datos independientemente de su tipo, formato u origen y sin la necesidad de estandarizar su estructura.

Una vez más, la elección depende en gran medida del tipo de negocio que esté dirigiendo, por lo que podría ser mejor para usted tener datos más rápidos pero sin filtrar o un flujo de datos más lento pero más organizado.

Usabilidad democrática: Todos pueden transformar los datos ahora. (Antes tenías que saber Java, Python, Scala, etc.)

Rentable: Gracias a la elasticidad de los proveedores de servicios en la nube, un proceso de ELT puede ampliarse o reducirse según las necesidades de cada organización. (El ETL solo era asequible para las grandes empresas).

Mejores análisis: Puede utilizar el contexto que mejor se adapte a su organización al analizar los datos. Esto le dará mejores resultados.

Autoservicio. Hablamos sobre cómo, de repente, los datos estaban disponibles para todos los miembros de su organización. Pero también podemos hablar de cómo esto conduce a la democratización del análisis.

Ahora puede hacer lo que quiera con todos los datos que ha recopilado. Todo lleva a esto: la transformación de sus datos.

Volvamos a la cocina. Por fin tienes una cocina enorme con inmensas despensas repletas de ingredientes y un personal completo. Bueno, ahora tienes que cocinar el plato y esperar lo mejor.

Lo mismo ocurre con los datos, no hay una receta única que sirva para todas las recetas. Cada análisis exigirá diferentes pasos de preparación y necesitarán diferentes estándares de calidad. Una vez que sus datos estén preparados, se convertirán en la base de sus análisis, predicciones e información.

Si se hace correctamente, sus datos pueden convertirse en un plato de cinco estrellas.

Componentes de una pila de datos moderna

Piense en su pila de datos como un pastel en capas. No todas las capas tienen que estar cubiertas o ser iguales, pero todas se apilan para crear un postre delicioso.

Por ejemplo, puede ser una empresa pequeña que solo necesita conectar su fuente de datos a una herramienta de análisis. No se necesitan el resto de las herramientas de transformación, pero ayudan.

Capa 1: Fuente de datos

¿De dónde provienen sus datos? Probablemente de su propia base de datos de producción, de los registros de un servidor web o de una aplicación de terceros. Puede (y es recomendable) tener varias fuentes de datos que fluyan a un almacenamiento de datos central.

Capa 2: Ingestión de datos

Cómo llegan los datos de un lugar a otro. Desde su fuente de datos hasta su almacenamiento de datos. Recomendamos usar Airbyte.

Capa 3: Almacenamiento de datos

Aquí es donde se recopilan y almacenan todos los datos de las fuentes de datos. La mayoría de las veces hablamos de almacenes de datos, pero en algunas empresas pueden ser una réplica de solo lectura de la base de datos.

Capa 4: Transformación y modelado de datos

La transformación de los datos en modelos fáciles de usar, para que las personas puedan explorar entre los datos sin analizar las estadísticas sin procesar ni hacer conjeturas. Recomendamos usar deuda y Airbyte.

Capa 5: Análisis de datos

Dónde puede ver la perspectiva de los datos. Por lo general, se denomina visualización de datos e implica también otras representaciones. Puede incluir el desarrollo de paneles de control y otras herramientas de monitoreo. Recomendamos usar Superconjunto.

Capa 6: Operacionalización de datos

A veces se denomina «ETL inversa» porque es el proceso de transferir datos de un almacén a sistemas de terceros para que los datos sean operativos.

Creación de su propia pila de datos moderna

Para crear una pila de datos sólida y saludable, tendrá que pensar en la herramienta adecuada para cada uno de los componentes que hemos mencionado anteriormente. Probablemente tendrá que elegir un proveedor de servicios en la nube para adaptar cada uno de estos componentes a sus necesidades. Afortunadamente, también puedes ocuparte del almacenamiento con ellos, ya que es bastante económico.

Algunas de nuestras herramientas favoritas que recomendamos para crear una pila de datos moderna son: Apache Airflow, DBT y Airbyte.

Sin embargo, es posible que crear una pila de datos sólida, rentable y escalable no sea tan fácil. Necesitará un equipo de ingenieros de datos, arquitectos de nube y expertos en DevOps con experiencia.

Nuestro equipo de expertos en MUTT DATA tiene experiencia en la creación de pilas de datos y siempre nos aseguramos de que se ajusten a las necesidades de nuestros clientes. Por ejemplo, puede consultar las últimas La solución DataOps que hemos creado para ClassDojo.

Un adelanto del futuro

Hemos mencionado cómo puede crear una pila de datos moderna y cómo puede reducir sus costos y permitir que más personas utilicen sus datos con mayor rapidez. La computación y el almacenamiento en la nube y las herramientas de datos modernas han ayudado a resolver ese problema, pero aún existen algunos desafíos que pueden cambiar las pilas de datos que conocemos hoy en día:

  • Gobernanza de datos: ahora todos pueden crear, acceder y transformar datos para crear sus análisis. Pero eso también puede generar caos, ya que las personas acceden a datos que no deberían o crean datos duplicados. ¡Big Data no significa datos incorrectos! Algunas herramientas que pueden ayudar en este sentido son Dataportal de Airbnb y/o Netflix Metcat.
  • Datos en tiempo real: muchas personas aún no han explorado las infinitas posibilidades de los datos en tiempo real. Desde el análisis de datos en tiempo real hasta la automatización de procesos, tener datos en tiempo real en todos sus sistemas puede marcar una gran diferencia de calidad.
  • Exploración de datos para todos: ¡al menos con una pila de datos moderna, solo necesita saber SQL! No es necesario conocer un lenguaje de programación. Pero podríamos ir un paso más allá y hacer que la exploración de datos sea aún más accesible para cualquier persona. Existen muchas herramientas de BI, pero ninguna tiene todavía la misma potencia que SQL.

Finalizando

Esperamos que, después de leer esta publicación, haya visto el crecimiento de la antigua pila de datos que conocíamos y haya podido apreciar las múltiples posibilidades que una pila de datos moderna puede aportar a su empresa.

¿Está interesado en crear su propia pila de datos moderna? ¿O tal vez llevar el que ya tienes al siguiente nivel? En MUTT DATA podemos ayudarlo, póngase en contacto con nosotros aquí!

¿Es usted un desarrollador de datos que busca un desafío? Venga a construir el futuro de Data Stacks con nosotros, ¡estamos contratando! Siempre estamos buscando ingenieros de datos, científicos de datos e ingenieros de aprendizaje automático curiosos para unirse a nuestro equipo en crecimiento. Aplica aquí!

Para leer más, puede encontrar más información aquí:

Share article.
News & insights

Latest Insights

Muttdata
Empresa

¿Cómo sabes que es hora de hacer evolucionar tu marca?

Evolucionar nuestra marca para que esté a la altura de nuestro crecimiento
Read Article
Modern Data Platform

El lenguaje natural se une a los datos en tiempo real: análisis sin cuellos de botella

Obtenga información sin necesidad de conocimientos técnicos
Read Article
Paid Media Optimizer

No todos los optimizadores de medios online están diseñados de la misma manera

5 razones por las que deberías solicitar una demo
Read Article

Listo para desbloquear

¿el poder de los datos?