Team Members
Projektdauer
Projekt
Datenintegration Quellsystem in das Cloud Data warehouse

HERAUSFORDERUNG
Das Ziel des Kunden war es mehrere Quell-Systeme in das neue Cloud Data Warehouse zu integrieren.
Data Ingestion verschiedener Quellsystem des Kunden interns und extern verfügbarer Datenquellen.
Ablegen der Daten in einem S3 Bucket.
Struktur typisch für DWH (Data Lake, Raw Layer, Staging Layer, Business Layer und Presentation Layer)
Transformation der Daten um Business Mehrwert zu erhalten.
Scheduling von Workflows, die täglich neue Daten aus den Quellsystemen importieren.
Erstellen von verschiedenen CICD Pipelines in Gitlab.
Alle Ressourcen (Buckets, Workflows, Applikationen, etc.) werden in ein Kubernetes Cluster deployed.
Konzeption und Implementierung der Reconciliation Verfahren um Quelldaten und Zieldaten-Layer in der Presentation Layer auf Qualität und Datenintegrität zu vergleichen.
Testen (Unit tests, Integration tests) der Ingestion Pipeline und der Matching Logic.
TECHNOLOGIEN
- Snowflake Cloud Data Warehouse
- Kubernetes
- Argo und Apache Airflow
- Python
- Data Warehouse & ETL
- S3 Buckets / Azure Blob Storage
- Docker
- CICD Pipeline in GitLab
- Apache Spark