Data Lineage with Apache Airflow using Marquez

Data Platform
Data Lineage with Apache
Airflow using Marquez
CRUNCH ‘19

Data Platform
Hey!
I’m Willy Lulciuc
Software Engineer
Marquez Team, Data Platform
@wslulciuc

AGENDA
Intro to Marquez
Marquez + Airflow
02
03
Why metadata?01
Data Platform
Demo04
Future work05

Data Platform
DATA
● What is the data source?
● Does the data have a
schema?
● Does the data have an
owner?
● How often is the data
updated?
Today: Limited context

Data Platform
DATA
SOURCES
● MYSQL
● POSTGRESQL
● REDSHIFT
● SNOWFLAKE
● KAFKA
FORMATS
● CSV
● JSON
● AVRO
● PARQUET
Data contextualization!

Data lineage
● Add context to
data
Democratize
● Self-service data
culture
Data quality
● Build trust in
data
Why manage and utilize metadata?
Data Platform

… creating a healthy data
ecosystem

Freedom
● Experiment
● Flexible
● Self-sufficient
Accountability
● Cost
● Trust
Self-service
● Discover
● Explore
● Global context
A healthy data ecosystem
Data Platform

Metadata (Marquez)
Ingest Storage Compute
StreamingBatch/ETL
● Data Platform
built around
Marquez
● Integrations
○ Ingest
○ Storage
○ Compute
Data Platform
Flink
Airflow
Kafka
Iceberg / S3

http://cidrdb.org/cidr2017/papers/p111-hellerstein-cidr17.pdf

Data
Lineage
Data
Governance
Data
Discovery
Marquez
Data Platform

Data Platform
Metadata Service
● Centralized metadata
management
○ Sources
○ Datasets
○ Jobs
● Modular framework
○ Data governance
○ Data lineage
○ Data discovery +
exploration
Marquez: Design
Marquez
Core
Lineage
Search
REST API
ETL Batch Stream

Integrations
APIs /
Libraries
Data PlatformData Platform

Core Lineage SearchServices
Integrations
APIs /
Libraries
Data PlatformData Platform

Core Lineage SearchServices
Integrations
APIs /
Libraries
Data Platform
Metadata
DB
Graph
Search
Storage
Data Platform

Marquez: Data model
Job
Dataset JobVersion
RunDatasetVersion
*
1
*
1
*
1
1*
1*
Data Platform
Source
1 *
● MYSQL
● POSTGRESQL
● REDSHIFT
● SNOWFLAKE
● KAFKA
● BATCH
● STREAM
● SERVICE

Marquez: Data model
Data Platform
DbTable Filesystem Stream
Job
Dataset JobVersion
RunDatasetVersion
*
1
*
1
*
1
1*
1*
Source
1 *
● MYSQL
● POSTGRESQL
● REDSHIFT
● SNOWFLAKE
● KAFKA
● BATCH
● STREAM
● SERVICE

Data Platform
v1 v4Dataset
v2
v4
v4
Job
v1
Dataset
v4
Job
v2
Marquez: Data model
● Debugging
○ What job version(s) produced and
consumed dataset version X?
● Backfilling
○ Full / incremental processing
Design benefits

Data Platform
Marquez: Metadata collection
How is metadata collected?
● Push-based metadata
collection
● REST API
● Language-specific SDKs
○ Java
○ Python
○ Go
Marquez
Job
Dataset+job
metadata

Data Platform
Source
{
"type":"POSTGRESQL",
"name":"analytics_db”,
"connectionUrl":"jdbc:postgresql://we.db:5431/analytics”,
"description":“Contains tables such as office room bookings.”
}
01

Data Platform
{
}
{
"type":"DB_TABLE",
"name":"wedata.room_bookings”,
"physicalName":"wedata.room_bookings”,
"sourceName":"analytics_db”,
"namespace":"datascience",
"columns": [...],
"description":“All global room bookings for each office.”
}
02 Dataset
Source01

Data Platform
{
}
{
"type":"DB_TABLE",
"namespace":"datascience”,
"columns": [...],
}
{
"type":"BATCH",
"name":"room_bookings_7_days”,
"inputs":["wedata.room_bookings”],
"outputs":[],
"location":"https://github.com/we/jobs/commit/124f6089...”,
"namespace":"datascience",
"description":“Weekly email of room bookings occupancy patterns.”
}
03 Job
Source01
02 Dataset

Data Platform
{
}
{
"type":"DB_TABLE",
"columns": [...],
}
{
"type":"BATCH",
"outputs":[],
}
03 Job
Source01
LINK SOURCE
LINK DATASET
02 Dataset

Data Platform
{
}
{
"type":"DB_TABLE",
"columns": [...],
}
Source01
{
"type":"BATCH",
"outputs":[],
}
03 Job
OWNERSHIP
02 Dataset

Data Platform
01 Job
v1
{
"type":"BATCH",
"name":"room_bookings_7_days”
"outputs":[],
...
}
LINEAGE
JOBDATASET

Data Platform
02
01 Job
v1
Job
v2
{
"type":"BATCH",
"outputs":[],
...
}
{
"type":"BATCH",
"outputs":["wedata.room_bookings_aggs”],
...
}
LINEAGE
LINEAGE
JOBDATASET

Data Platform
03 Job
v3
{
"type":"BATCH",
...
}
{
"type":"BATCH",
"inputs":["wedata.room_bookings”,"wedata.spaces”],
...
}
02 Job
v2
01 Job
v1
{
"type":"BATCH",
"outputs":[],
...
}
LINEAGE
LINEAGE
LINEAGE
JOBDATASET

VERSION
CONTROL
Quay.io
BUILD TEST
PUBLISH
IMAGE
CIRCLECI BUILD PIPELINE
DEPLOY
STAGING
DEPLOY
PRODUCTION
HOLD
PUSH IMAGE
PULL IMAGE
Marquez
Deployment
HELM INSTALL HELM INSTALL

Airflow
DAG
DAG
DAG
DAG
Marquez Lib.
Data Platform
● Metadata
○ Task lifecycle
○ Task parameters
○ Task runs linked to versioned code
○ Task inputs / outputs
● Lineage
○ Track inter-DAG dependencies
● Built-in
○ SQL parser
○ Link to code builder (GitHub)
○ Metadata extractors
Marquez: Airflow
Airflow support for Marquez

Data Platform
Marquez: Airflow
Airflow
Marquez Airflow
Lib.
Extractor
Operator
Metadata

Data Platform
airflow.operators.PostgresOperator
marquez_airflow.extractors.PostgresExtractor
Extractor
Operator
Metadata
Airflow
Marquez Airflow
Lib.
Example
Marquez: Airflow

Data Platform
● Open source!
● Enables global task-level metadata collection
● Extends Airflow’s DAG class
from marquez_airflow import DAG
from airflow.operators.postgres_operator import PostgresOperator
...
room_bookings_7_days_dag.py
Marquez: Airflow
Marquez Airflow Lib.

Data Platform
DAG
MarquezLib.
Integration
Marquez
RESTAPI
Capturing task-level metadata in a
nutshell
Marquez: Airflow
Job
Dataset
Job
Version
Run
Dataset
Version
*
1
*
1
1*
1*
Source
1 *
*
1
Airflow

Airflow @ WeWork
Quay.io
IMAGE
AIRFLOW
MARQUEZ
AIRFLOW LIB.
● Multiple Airflow instances
● Internally distribute our own
docker image
○ Airflow
○ Marquez Airflow Lib.
● All DAGs are Marquez-enabled
○ Lineage across Airflow instances
○ DAG ownership enforcement

IMAGE
AIRFLOW CUSTOM OPERATORS
CUSTOM EXTRACTORSQuay.io
NAMESPACE 1
PULL IMAGE
NAMESPACE 2 NAMESPACE N
...
PULL IMAGEPULL IMAGE
MARQUEZ
AIRFLOW LIB.
DATAPLATFORM
MARQUEZ
BUILD / PUSH
IMAGE

Marquez: Data triggers
● Powered by data lineage
● Timely processing of data
○ No polling!
● Reduce manual handling of
backfills
● Reduce production of bad data
○ Incomplete data
○ Low-quality data
LINEAGE
Data Platform JOBDATASET
Managing inter-DAG dependencies
with data triggers

Marquez: Data triggers
Managing inter-DAG dependencies
with data triggers
LINEAGE
Data Platform
● Powered by data lineage
● Timely processing of data
○ No polling!
● Reduce manual handling of
backfills
● Reduce production of bad data
○ Incomplete data
○ Low-quality data
JOBDATASET

Data Platform
Roadmap
● Short-term
○ Release marquez 0.5.0
○ Release marquez-airflow 0.2.0
○ Release early version of marquez-helm
○ Docs
● Long-term
○ Apache Iceberg metadata support
○ Search
○ Data triggers
Marquez: Future work

https://marquezproject.github.io/marquez

github.com/MarquezProject
@MarquezProject

Questions?
Data Platform CRUNCH ‘19

Data Lineage with Apache Airflow using Marquez

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Data Lineage with Apache Airflow using Marquez

Similar to Data Lineage with Apache Airflow using Marquez (20)

Recently uploaded

Recently uploaded (20)

Data Lineage with Apache Airflow using Marquez