El kiosko para aprender data · open source

Descubre tu ruta en el mundo de los datos

Elige tu rol, conoce las habilidades que importan y domínalas con herramientas 100% open source. Una a la vez.

Curaduría, no duplicación · orientamos y enlazamos la doc oficial

El recorrido del dato

El camino que sigue un dato de principio a fin — desde que entra al ecosistema hasta que se vuelve un gráfico. Cada herramienta, en su lugar del flujo. Clic para abrir su guía.

ingesta → almacenamiento → procesamiento → análisis → visualización

01
Ingesta
Los datos entran al ecosistema, en tiempo real o por lotes.
Plataforma
Apache NiFi→Apache Kafka→Airbyte→
02
Almacenamiento
Dónde viven los datos: bases, formatos y tablas.
Motor / BD
PostgreSQL→
Formato
Apache Parquet→Apache Iceberg→Delta Lake→
Almacenamiento
MinIO→Ceph→
03
Procesamiento
Transformar y combinar los datos a gran escala.
Librería / framework
dbt→
Motor / BD
Apache Spark→
04
Consulta y análisis
Consultar, explorar y entender los datos.
Librería / framework
pandas→Polars→NumPy→
Motor / BD
Trino→DuckDB→
Entorno
Jupyter→
05
Visualización
Convertir los datos en gráficos y dashboards.
Librería / framework
Matplotlib→seaborn→
Plataforma
Apache Superset→

Atraviesan todo el flujo

Capas transversales

Lenguajes

Lenguaje

Python→SQL→

Orquestación

Plataforma

Apache Airflow→Dagster→

Machine Learning

Librería / framework

scikit-learn→PyTorch→

Gobernanza

Librería / framework

Great Expectations→

Plataforma

OpenMetadata→

Infraestructura

Docker→Git→

Autoevaluación

¿No sabes por dónde empezar?

Hazte la autoevaluación de tu rol: cinco preguntas sobre las habilidades base, y sales con tu nivel y una ruta de aprendizaje sugerida — todo con herramientas open source.

Data Engineer→Data Scientist→Base / transversal→

¿Data Engineer o Data Scientist?

Perfiles y lo que comparten

Dos especialidades con un núcleo común. Mira qué comparten y en qué se diferencia cada una — y elige por dónde seguir.

Data Engineer

→

Mover dato confiable, a tiempo y a escala.

Apache NiFi Apache Kafka Airbyte PostgreSQL MinIO Ceph Apache Parquet Apache Iceberg Delta Lake Apache Spark dbt Apache Airflow Dagster Trino Great Expectations OpenMetadata

Fundamentos compartidos

→

Lo que todo perfil necesita. Empieza aquí.

Python SQL Git Docker DuckDB

Data Scientist

→

Analizar, modelar y comunicar con datos.

pandas NumPy Polars Jupyter scikit-learn PyTorch Matplotlib seaborn Apache Superset

Por capa

Dónde encaja

Lenguajes2 Análisis5 Almacenamiento6 Procesamiento4 Orquestación4 Machine Learning2 Visualización3 Gobierno2 Infraestructura2

Por naturaleza

Qué tipo de cosa es

Lenguaje2 Librería / framework9 Motor / BD4 Plataforma7 Formato3 Almacenamiento2 Entorno1 Infraestructura2

El catálogo

Todas las ediciones

Nº01Orquestación

Airbyte

Mueve datos de cualquier fuente a tu warehouse con conectores listos.

IntroOSS

Nº02Orquestación

Apache Airflow

Orquesta pipelines de datos como código: programa, ejecuta y monitorea.

Intropython

Nº03Almacenamiento

Apache Iceberg

Tablas con garantías de base de datos sobre tu data lake.

IntermedioOSS

Nº04Procesamiento

Apache Kafka

El sistema nervioso para datos en tiempo real.

Intermediopython

Nº05Orquestación

Apache NiFi

Mueve datos entre sistemas con flujos visuales, sin escribir código.

IntermedioOSS

Nº06Almacenamiento

Apache Parquet

El formato columnar que hace barata y rápida la analítica sobre archivos.

IntroOSS

Nº07Procesamiento

Apache Spark

El motor distribuido para procesar datos a gran escala.

Intermediopython

Nº08Visualización

Apache Superset

Exploración de datos y dashboards de BI, open-source y sobre SQL.

IntroOSS

Nº09Almacenamiento

Ceph

Almacenamiento distribuido a escala de producción: objetos, bloques y archivos.

IntermedioOSS

Nº10Orquestación

Dagster

Orquestación de pipelines centrada en los datos (assets), no solo en tareas.

Intermediopython

Nº11Procesamiento

dbt

Transforma datos en tu warehouse con SQL, como si fuera código de software.

Introsql

Nº12Almacenamiento

Delta Lake

Tablas con garantías ACID y time travel sobre tu data lake.

IntermedioOSS

Nº13Infraestructura

Docker

Empaqueta cualquier herramienta del stack en un contenedor reproducible.

IntroOSS

Nº14Análisis

DuckDB

La base de datos analítica que corre dentro de tu proceso, sin servidor.

Introsql

Nº15Infraestructura

Git

El control de versiones sobre el que se apoya todo trabajo de datos reproducible.

IntroOSS

Nº16Gobierno

Great Expectations

Tests de calidad para tus datos: define expectativas y valida cada carga.

Intermediopython

Nº17Análisis

Jupyter

El cuaderno interactivo donde el análisis de datos toma forma.

Intropython

Nº18Visualización

Matplotlib

La librería base para visualizar datos con código en Python.

Intropython

Nº19Almacenamiento

MinIO

Almacenamiento de objetos compatible con S3, para montar tu propio data lake.

IntroOSS

Nº20Análisis

NumPy

El cimiento numérico de Python: arrays rápidos y vectorizados.

Intropython

Nº21Gobierno

OpenMetadata

El catálogo abierto para descubrir y trazar el linaje de tus datos.

IntermedioOSS

Nº22Análisis

pandas

La navaja suiza para manipular y analizar datos tabulares en Python.

Intropython

Nº23Análisis

Polars

DataFrames en Rust: rápidos, paralelos y con evaluación perezosa.

Intropython

Nº24Almacenamiento

PostgreSQL

La base de datos relacional open-source de referencia, fiable y extensible.

Introsql

Nº25Lenguajes

Python

El lenguaje franco del stack de datos: de scripts a pipelines y ML.

Intropython

Nº26Machine Learning

PyTorch

El framework de deep learning flexible y pythónico.

Intermediopython

Nº27Machine Learning

scikit-learn

La caja de herramientas de machine learning clásico en Python.

Intropython

Nº28Visualización

seaborn

Gráficos estadísticos elegantes en una línea, sobre Matplotlib.

Intropython

Nº29Lenguajes

SQL

El idioma universal para hacerle preguntas a los datos.

Introsql

Nº30Procesamiento

Trino

Un solo SQL para consultar datos donde sea que vivan.

Intermediosql

Descubre tu ruta en el mundo de los datos

El recorrido del dato

Ingesta

Almacenamiento

Procesamiento

Consulta y análisis

Visualización

Capas transversales

¿No sabes por dónde empezar?

¿Data Engineer o Data Scientist?

Data Engineer

Fundamentos compartidos

Data Scientist

Por capa

Por naturaleza

El catálogo

Airbyte

Apache Airflow

Apache Iceberg

Apache Kafka

Apache NiFi

Apache Parquet

Apache Spark

Apache Superset

Ceph

Dagster

dbt

Delta Lake

Docker

DuckDB

Git

Great Expectations

Jupyter

Matplotlib

MinIO

NumPy

OpenMetadata

pandas

Polars

PostgreSQL

Python

PyTorch

scikit-learn

seaborn

SQL

Trino