fbpx

Team Members

Projektdauer

Projekt

Datenintegration Quellsystem in das  Cloud Data warehouse

HERAUSFORDERUNG

Das Ziel des Kunden war es mehrere Quell-Systeme in das neue Cloud Data Warehouse zu integrieren.

  • Data Ingestion verschiedener Quellsystem des Kunden interns und extern verfügbarer Datenquellen.

  • Ablegen der Daten in einem S3 Bucket.

  • Struktur typisch für DWH (Data Lake, Raw Layer, Staging Layer, Business Layer und Presentation Layer)

  • Transformation der Daten um Business Mehrwert zu erhalten.

  • Scheduling von Workflows, die täglich neue Daten aus den Quellsystemen importieren.

  • Erstellen von verschiedenen CICD Pipelines in Gitlab.

  • Alle Ressourcen (Buckets, Workflows, Applikationen, etc.) werden in ein Kubernetes Cluster deployed.

  • Konzeption und Implementierung der Reconciliation Verfahren um Quelldaten und Zieldaten-Layer in der Presentation Layer auf Qualität und Datenintegrität zu vergleichen.

  • Testen (Unit tests, Integration tests) der Ingestion Pipeline und der Matching Logic.

TECHNOLOGIEN

  • Snowflake Cloud Data Warehouse
  • Kubernetes
  • Argo und Apache Airflow
  • Python
  • Data Warehouse & ETL
  • S3 Buckets / Azure Blob Storage
  • Docker
  • CICD Pipeline in GitLab
  • Apache Spark