El kiosko para aprender data · open source
Descubre tu ruta en el mundo de los datos
Elige tu rol, conoce las habilidades que importan y domínalas con herramientas 100% open source. Una a la vez.
Curaduría, no duplicación · orientamos y enlazamos la doc oficial
El recorrido del dato
El recorrido del datoEl camino que sigue un dato de principio a fin — desde que entra al ecosistema hasta que se vuelve un gráfico. Cada herramienta, en su lugar del flujo. Clic para abrir su guía.
ingesta → almacenamiento → procesamiento → análisis → visualización
01
Ingesta
Los datos entran al ecosistema, en tiempo real o por lotes.
Plataforma
02
Almacenamiento
Dónde viven los datos: bases, formatos y tablas.
03
Procesamiento
Transformar y combinar los datos a gran escala.
Librería / framework
Motor / BD
04
Consulta y análisis
Consultar, explorar y entender los datos.
05
Visualización
Convertir los datos en gráficos y dashboards.
Librería / framework
Plataforma
Atraviesan todo el flujo
Capas transversales
Orquestación
Plataforma
Machine Learning
Librería / framework
Gobernanza
Librería / framework
Plataforma
Autoevaluación
¿No sabes por dónde empezar?
Hazte la autoevaluación de tu rol: cinco preguntas sobre las habilidades base, y sales con tu nivel y una ruta de aprendizaje sugerida — todo con herramientas open source.
¿Data Engineer o Data Scientist?
Perfiles y lo que compartenDos especialidades con un núcleo común. Mira qué comparten y en qué se diferencia cada una — y elige por dónde seguir.
Data Engineer
→Mover dato confiable, a tiempo y a escala.
Data Scientist
→Analizar, modelar y comunicar con datos.
Por capa
Dónde encajaPor naturaleza
Qué tipo de cosa esEl catálogo
Todas las edicionesAirbyte
Mueve datos de cualquier fuente a tu warehouse con conectores listos.
Apache Airflow
Orquesta pipelines de datos como código: programa, ejecuta y monitorea.
Apache Iceberg
Tablas con garantías de base de datos sobre tu data lake.
Apache Kafka
El sistema nervioso para datos en tiempo real.
Apache NiFi
Mueve datos entre sistemas con flujos visuales, sin escribir código.
Apache Parquet
El formato columnar que hace barata y rápida la analítica sobre archivos.
Apache Spark
El motor distribuido para procesar datos a gran escala.
Apache Superset
Exploración de datos y dashboards de BI, open-source y sobre SQL.
Ceph
Almacenamiento distribuido a escala de producción: objetos, bloques y archivos.
Dagster
Orquestación de pipelines centrada en los datos (assets), no solo en tareas.
dbt
Transforma datos en tu warehouse con SQL, como si fuera código de software.
Delta Lake
Tablas con garantías ACID y time travel sobre tu data lake.
Docker
Empaqueta cualquier herramienta del stack en un contenedor reproducible.
DuckDB
La base de datos analítica que corre dentro de tu proceso, sin servidor.
Git
El control de versiones sobre el que se apoya todo trabajo de datos reproducible.
Great Expectations
Tests de calidad para tus datos: define expectativas y valida cada carga.
Jupyter
El cuaderno interactivo donde el análisis de datos toma forma.
Matplotlib
La librería base para visualizar datos con código en Python.
MinIO
Almacenamiento de objetos compatible con S3, para montar tu propio data lake.
NumPy
El cimiento numérico de Python: arrays rápidos y vectorizados.
OpenMetadata
El catálogo abierto para descubrir y trazar el linaje de tus datos.
pandas
La navaja suiza para manipular y analizar datos tabulares en Python.
Polars
DataFrames en Rust: rápidos, paralelos y con evaluación perezosa.
PostgreSQL
La base de datos relacional open-source de referencia, fiable y extensible.
Python
El lenguaje franco del stack de datos: de scripts a pipelines y ML.
PyTorch
El framework de deep learning flexible y pythónico.
scikit-learn
La caja de herramientas de machine learning clásico en Python.
seaborn
Gráficos estadísticos elegantes en una línea, sobre Matplotlib.
SQL
El idioma universal para hacerle preguntas a los datos.
Trino
Un solo SQL para consultar datos donde sea que vivan.