Curaduría open-source · Python-first · en español

El kiosko para aprender data · open source

Descubre tu ruta en el mundo de los datos

Elige tu rol, conoce las habilidades que importan y domínalas con herramientas 100% open source. Una a la vez.

Curaduría, no duplicación · orientamos y enlazamos la doc oficial

El recorrido del dato

El recorrido del dato

El camino que sigue un dato de principio a fin — desde que entra al ecosistema hasta que se vuelve un gráfico. Cada herramienta, en su lugar del flujo. Clic para abrir su guía.

ingesta → almacenamiento → procesamiento → análisis → visualización

  1. 01

    Ingesta

    Los datos entran al ecosistema, en tiempo real o por lotes.

  2. 02

    Almacenamiento

    Dónde viven los datos: bases, formatos y tablas.

  3. 03

    Procesamiento

    Transformar y combinar los datos a gran escala.

    Librería / framework

    Motor / BD

  4. 04

    Consulta y análisis

    Consultar, explorar y entender los datos.

    Librería / framework

    Entorno

  5. 05

    Visualización

    Convertir los datos en gráficos y dashboards.

    Librería / framework

Atraviesan todo el flujo

Capas transversales

Lenguajes

Orquestación

Machine Learning

Librería / framework

Gobernanza

Librería / framework

Plataforma

Infraestructura

Infraestructura

Autoevaluación

¿No sabes por dónde empezar?

Hazte la autoevaluación de tu rol: cinco preguntas sobre las habilidades base, y sales con tu nivel y una ruta de aprendizaje sugerida — todo con herramientas open source.

¿Data Engineer o Data Scientist?

Perfiles y lo que comparten

Dos especialidades con un núcleo común. Mira qué comparten y en qué se diferencia cada una — y elige por dónde seguir.

Por capa

Dónde encaja

Por naturaleza

Qué tipo de cosa es

El catálogo

Todas las ediciones
Nº01Orquestación

Airbyte

Mueve datos de cualquier fuente a tu warehouse con conectores listos.

IntroOSS
Nº02Orquestación

Apache Airflow

Orquesta pipelines de datos como código: programa, ejecuta y monitorea.

Intropython
Nº03Almacenamiento

Apache Iceberg

Tablas con garantías de base de datos sobre tu data lake.

IntermedioOSS
Nº04Procesamiento

Apache Kafka

El sistema nervioso para datos en tiempo real.

Intermediopython
Nº05Orquestación

Apache NiFi

Mueve datos entre sistemas con flujos visuales, sin escribir código.

IntermedioOSS
Nº06Almacenamiento

Apache Parquet

El formato columnar que hace barata y rápida la analítica sobre archivos.

IntroOSS
Nº07Procesamiento

Apache Spark

El motor distribuido para procesar datos a gran escala.

Intermediopython
Nº08Visualización

Apache Superset

Exploración de datos y dashboards de BI, open-source y sobre SQL.

IntroOSS
Nº09Almacenamiento

Ceph

Almacenamiento distribuido a escala de producción: objetos, bloques y archivos.

IntermedioOSS
Nº10Orquestación

Dagster

Orquestación de pipelines centrada en los datos (assets), no solo en tareas.

Intermediopython
Nº11Procesamiento

dbt

Transforma datos en tu warehouse con SQL, como si fuera código de software.

Introsql
Nº12Almacenamiento

Delta Lake

Tablas con garantías ACID y time travel sobre tu data lake.

IntermedioOSS
Nº13Infraestructura

Docker

Empaqueta cualquier herramienta del stack en un contenedor reproducible.

IntroOSS
Nº14Análisis

DuckDB

La base de datos analítica que corre dentro de tu proceso, sin servidor.

Introsql
Nº15Infraestructura

Git

El control de versiones sobre el que se apoya todo trabajo de datos reproducible.

IntroOSS
Nº16Gobierno

Great Expectations

Tests de calidad para tus datos: define expectativas y valida cada carga.

Intermediopython
Nº17Análisis

Jupyter

El cuaderno interactivo donde el análisis de datos toma forma.

Intropython
Nº18Visualización

Matplotlib

La librería base para visualizar datos con código en Python.

Intropython
Nº19Almacenamiento

MinIO

Almacenamiento de objetos compatible con S3, para montar tu propio data lake.

IntroOSS
Nº20Análisis

NumPy

El cimiento numérico de Python: arrays rápidos y vectorizados.

Intropython
Nº21Gobierno

OpenMetadata

El catálogo abierto para descubrir y trazar el linaje de tus datos.

IntermedioOSS
Nº22Análisis

pandas

La navaja suiza para manipular y analizar datos tabulares en Python.

Intropython
Nº23Análisis

Polars

DataFrames en Rust: rápidos, paralelos y con evaluación perezosa.

Intropython
Nº24Almacenamiento

PostgreSQL

La base de datos relacional open-source de referencia, fiable y extensible.

Introsql
Nº25Lenguajes

Python

El lenguaje franco del stack de datos: de scripts a pipelines y ML.

Intropython
Nº26Machine Learning

PyTorch

El framework de deep learning flexible y pythónico.

Intermediopython
Nº27Machine Learning

scikit-learn

La caja de herramientas de machine learning clásico en Python.

Intropython
Nº28Visualización

seaborn

Gráficos estadísticos elegantes en una línea, sobre Matplotlib.

Intropython
Nº29Lenguajes

SQL

El idioma universal para hacerle preguntas a los datos.

Introsql
Nº30Procesamiento

Trino

Un solo SQL para consultar datos donde sea que vivan.

Intermediosql