5 de nuestras herramientas favoritas de ingeniería de datos
¡Venga a ver lo que a nuestros expertos en datos les encanta usar!

Si eres un lector fiel de nuestro blog, probablemente ya hayas aprendido sobre todas las herramientas y buenas prácticas que hemos mencionado en nuestro Fundamentos de ingeniería de datos publicar. Los consejos que mencionamos en esa publicación se aplican a cualquier persona interesada en comenzar su carrera en el campo de los datos: ¡no importa si quiere ser ingeniero de datos, científico de datos, ingeniero de aprendizaje automático o algo completamente nuevo y diferente!
Sin embargo, si ha hecho clic en esto publicación, es probable que estés interesado en Ingeniería de datos.
Si tienes poco tiempo y planeas hojear esta publicación (¡lo cual es perfectamente normal!) , aun así queremos decirte algo importante: ¡Estamos contratando ingenieros de datos! Si es ingeniero de datos o líder en tecnología de datos, ¡nos encantaría saber de usted! Consulta nuestra cuenta de Lever para puestos vacantes.
Sin más preámbulos, aquí están cinco ¡Herramientas de ingeniería de datos que a nuestros expertos les encanta usar! Elegimos estas herramientas porque nos permitían resolver problemas increíblemente desafiantes, escalar nuestras soluciones a terabytes de datos o simplemente porque hacían que nuestra vida diaria fuera más fácil y mejor.
1. deuda

¿Qué es?
Actualicemos los términos ETLs y FIELTROEs lo que mencionamos anteriormente en Pila de datos moderna. Puede que estés familiarizado con Eextraer TTransformar y Lcanalizaciones de carga, donde solo almacenas lo que has calculado durante la etapa de transformación. Y no nos malinterpretes, ETLLos s siguen siendo increíblemente relevantes y útiles. Pero las pilas de datos modernas parecen tender a Eextraer LCarretera y TTransforma las tuberías. El almacenamiento es ahora un producto básico gracias a los servicios en la nube, por lo que no es caro cargar todos los datos que se han extraído. En teoría, ahora cualquiera puede crear transformaciones a partir de esos datos. ¡Y es verdad! Pero tendrán que pasar por un proceso tedioso y propenso a errores para empezar a explotar esos datos. ¡Ojalá fuera rápido y fácil empezar a crear transformaciones en un lenguaje que todos los ingenieros y analistas conocen! Introduzca dbt.
deuda (ddatos bconstruir t(herramienta) es el T en FIELTRO. Es excelente para transformar los datos que ya se han cargado. ¿Cómo lo preguntas? Con un amigo de confianza que todos conocemos muy bien: SQL. Combina SQL con Plantillas Jinja y tienes una herramienta potente y escalable que cualquiera puede usar.
Ahora, cualquiera que conozca SQL puede programar canalizaciones de datos útiles, probar sus resultados y documentar su uso.
Por qué nos encanta la deuda
El objetivo de Data Engineering es hacer que los datos estén disponibles y sean útiles para las personas. dbt nos permitió democratizar los datos: ahora todos puede usarlo y crear información, métricas y más. ¡No hay nada mejor que sus canalizaciones de datos que crean valor para todos! También nos encanta cómo incorpora las mejores prácticas de ingeniería de software al mundo de la analítica: es increíblemente fácil probar, definir operaciones reutilizables y documentar con dbt.
2. Grandes expectativas

¿Qué es?
Grandes expectativas ayuda a los equipos de datos a eliminar la deuda de los oleoductos mediante pruebas de datos, documentación y creación de perfiles. Pero espera, ¿la deuda no hizo ya todo eso? ¡Sí! Pero así como dbt es una herramienta diseñada por expertos para las transformaciones, Great Expectations es una herramienta diseñada por expertos para la validación de datos. Es tan buena que puede integrarse perfectamente con dbt y otras herramientas como Airflow (hablaremos de Airflow más adelante)
Volviendo a Great Expectations: hace que sea increíblemente fácil afirmar la calidad de sus datos en cualquier momento. No importa si estás ejecutando un ETL o un FIELTRO oleoducto. Puede validar los datos con un expectativa, una afirmación sobre sus datos. Utilice productos prefabricados expectativas de la biblioteca principal, usa los creado por la comunidad ¡o crea el tuyo propio!
Por qué nos encanta Great Expectations
Todos hemos visto cómo los datos no se procesaban correctamente en una canalización, lo que hacía que faltaran datos, que estuvieran desactualizados o que las métricas parecieran un poco incorrectas. Great Expectations nos permitió pasar fácilmente de ser reactiva a estos problemas a ser proactivo. En lugar de tener una alarma que nos avise de que algo extraño está sucediendo una vez que es demasiado tarde, ahora lo sabemos incluso antes de que suceda. Ha sido muy fácil añadir nuevas validaciones a los datos y utilizar el generador de perfiles para crear automáticamente un conjunto de expectativas. ¡Poder conectarlo a diferentes fuentes y herramientas como dbt selló el trato!
3. Airbyte

¿Qué es?
Estar en la era de FIELTRO significa que el almacenamiento y la computación de datos son bastante accesibles gracias a los proveedores de la nube. ¡Pero poder almacenar más fuentes de datos significa más trabajo pesado para nosotros, los ingenieros de datos! Crear, configurar y configurar manualmente conectores para una nueva fuente de datos no es la actividad más emocionante del mundo.
Airbyte ¡al rescate! Es una herramienta que nos ayuda con Extracción y Cargando etapas de un FIELTRO (Airbyte es un EL (T) herramienta, lo que significa que no es para tu Transformar escenario, pero tenemos deuda para eso). Proporciona una forma estandarizada de extraer fuentes de datos gracias a sus conectores. Al igual que Great Expectations, Airbyte mantiene algunos conectores a las fuentes de datos más populares, mientras que otros los mantiene la comunidad. Y, por supuesto, ¡puedes crear los tuyos propios!
Por qué nos encanta Airbyte
Airbyte es una herramienta increíblemente joven pero prometedora. La comunidad que rodea a Airbyte ha sido excelente y nos ha ayudado con todas nuestras preguntas y problemas.
Últimamente hemos estado usando mucho Airbyte, lo que nos ayuda a conectarnos fácilmente a toneladas de fuentes de datos diferentes. Nos ha encantado, ¡y próximamente habrá más publicaciones al respecto!
4. Terraform

¿Qué es?
Espera, ¿no es Terraform una herramienta de DevOps? ¡Sí! Pero todas las herramientas que hemos mencionado anteriormente tienen que funcionar en alguna parte, ¿verdad?
Usamos Terraformar para definir nuestro infraestructura como código. Las instancias y los recursos ya no se crean manualmente, donde solo unos pocos conocen la receta correcta de configuraciones y ajustes. ¡Y lo peor era volver a configurarlos cuando queríamos crear un nuevo proyecto! Terraform nos permite automatizar y administrar nuestra infraestructura con sus archivos de configuración. Ahora las infraestructuras están versionadas, reutilizadas y compartidas entre personas y proyectos.
Sin embargo, Terraform no viene solo: solemos usarlo junto con las canalizaciones de CI/CD (normalmente las de Gitlab, Kubernetes, y Flujo para lograr GitOps.
Por qué nos encanta Terraform
En Mutt Data, comenzamos nuevos proyectos todo el tiempo. Terraform nos permitió tener una manera fácil de crear nuevas infraestructuras e introducir cambios cuando fuera necesario. No solo ha sido una parte clave para iniciar nuevos proyectos, sino también para mantener su salud a largo plazo.
5. Y por último, pero no por ello menos importante... ¡Flujo de aire!

¡Por supuesto, íbamos a mencionar Airflow! ¡Hemos estado usando Flujo de aire Apache desde hace mucho tiempo (¡incluso antes de la v1!). Ha desempeñado un papel clave en la producción de canales de datos de todas las formas y tamaños.
Y si aún no te has enterado: estamos se asocia con Astronomer! Créenos cuando decimos que escribiremos mucho sobre Airflow y Astronomer en los próximos días, ¡esto es solo un adelanto!
¿Está interesado en utilizar estas herramientas? ¡Estamos contratando!
Si ha llegado hasta aquí, ¡puede decir con seguridad que está interesado en la ingeniería de datos! Si alguna de estas herramientas te llamó la atención, ¡asegúrate de solicitar! Todos somos fanáticos de los datos en Mutt y nos encantaría saber de ti.
Nos tomamos muy en serio el crecimiento técnico. Estas son las razones por las que creemos que Mutt sería un excelente lugar para dar el siguiente paso en su carrera de ingeniería de datos:
- Una vez que te unas, pasarás por nuestra incorporación técnica guiada (la ¡Academia Mutt!) donde tendrás tiempo para aprender y probar la mayoría de estas herramientas. ¿Ya conoces algunas de ellas? ¡Eso está bien! Nosotros siempre «ajuste personalizado» el contenido que aprende en el Academia Mutt teniendo en cuenta su experiencia previa y sus intereses.
- Cada semana tenemos Horario de oficina de datos donde hablamos en un ambiente relajado sobre temas y tecnologías de datos interesantes.
- ¿Quieres aumentar tus habilidades tecnológicas? Somos socios consultores selectos de AWS! Cubriremos el costo de su certificación y lo ayudaremos a prepararse para el examen.
Referencias y material de lectura
Latest Insights
¿Cómo sabes que es hora de hacer evolucionar tu marca?
.webp)
El lenguaje natural se une a los datos en tiempo real: análisis sin cuellos de botella

No todos los optimizadores de medios de pago están diseñados de la misma manera
