21.08.2025 aktualisiert

**** ******** ****
100 % verfügbar

Big Data Architect & Data Engineer [Azure, AWS, databricks, Spark, Kafka]

Berlin, Deutschland
Weltweit
Robotics, Cognition, Intelligence
Berlin, Deutschland
Weltweit
Robotics, Cognition, Intelligence

Profilanlagen

profil.docx
profil_en.docx

Skills

Methodische und fachliche Schwerpunkte
  • Architecture (Microsoft Azure & AWS) 
  • Data Engineering (Databricks, Fabric, Apache Spark, Azure Synapse Analytics, Azure Data Factory, AWS Glue, Athena, EMR) 
  • Infrastructure as Code (Terraform, ARM, AWS CDK) 
  • Containerization (Kubernetes, Docker) 

Tätigkeitsschwerpunkte
  • Software Engineer & Cloud Consultant mit Fokus auf Microsoft Azure & Amazon Web Services 
  • ETL Prozesse & Data Engineering 
  • Entwicklung Big Data / ETL-Pipelines 
  • Anwendungsmigrationen unter Nutzung von Cloud Services 
  • Beratung & Implementierung von Automatisierungskonzepten 
  • Integration von ActiveDirectory, Sicherheitskonzepten und Compliancevorgaben (Überwachung und Protokollierung) 

Zertifizierungen
  • HashiCorp Certified: Terraform Associate
  • Databricks Certified Associate Developer  for Apache Spark
  • Azure Solutions Architect Expert:
    • AZ-300: Microsoft Azure Architect Technologies
    • AZ-301: Microsoft Azure Architect Design
  • Microsoft Certified: Azure Data Scientist Associate
    • DP-100: Designing and Implementing a Data Science Solution on Azure
  • AWS Certified Machine Learning – Specialty
  • AWS Certified Solutions Architect – Associate

Sprachen

DeutschMutterspracheEnglischverhandlungssicherPolnischverhandlungssicher

Projekthistorie

Modernisierung der Datenarchitektur mit Azure Databricks Live Tables und Databricks Asset Bundle

Automobil und Fahrzeugbau

500-1000 Mitarbeiter

Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks

Transport und Logistik

500-1000 Mitarbeiter

  • Projektzusammenfassung:
  • In diesem „Leuchtturm“-Projekt leitete ich die Entwicklung einer robusten Datenstrategie und eines Governance-Frameworks mit dem Ziel, die Datenverarbeitungskapazitäten der Organisation zu optimieren und zu verbessern. Kern des Projekts war der Aufbau einer hochperformanten Datenmanagementplattform auf Databricks, ergänzt durch das Design und die Implementierung einer effizienten Data-Hub-Ingest-Plattform.
     
    • Leitung des Designs und der Etablierung einer unternehmensweiten Datenstrategie, ausgerichtet an Geschäftszielen und technologischen Fortschritten
    • Entwicklung eines umfassenden Daten-Governance-Frameworks zur Gewährleistung von Datenqualität, Datenschutz und Einhaltung von Branchenstandards
    • Überwachung der Bereitstellung und Anpassung der Datenmanagementplattform auf Databricks, Verbesserung der Datenverarbeitung, Analyse und Reportingfähigkeiten mit Power BI
    • Entwicklung eines robusten Data-Hubs mit hochperformanter Ingest-Pipelines basierend auf AWS EventBridge,
    • Optimierung des Datenflusses von verschiedenen Quellen zu zentralisierten Speichersystemen (Data Lake House auf Azure)
    • Zusammenarbeit mit funktionsübergreifenden Teams zur Integration der Datenmanagementplattform in die bestehende IT-Infrastruktur und Geschäftsprozesse
    • Durchführung von Schulungen und Workshops für neue Teams, Förderung einer datengetriebenen Kultur und Verbesserung der Datenkompetenz in der gesamten Organisation
    • Services:  
      • Azure Databricks
      • Databricks Data Catalog
      • AWS EventBridge
      • Kinesis
      • Event Hub
      • Structured Streaming (Apache Spark)

Innovative Integration und Analyse von Logistikdatenströmen mit PySpark Structured Streaming und Data Mesh-Implementierung

Transport und Logistik

500-1000 Mitarbeiter

  • Projektzusammenfassung:
Dieses Projekt konzentrierte sich auf die anspruchsvolle Integration von Logistikdatenströmen mit Event Hub und Kafka unter Verwendung von PySpark Structured Streaming. Unser Ansatz revolutionierte die Art und Weise, wie Logistikdaten in Echtzeit erfasst, verarbeitet und durch den Graphen-Ansatz verknüpft werden konnten. Durch den Einsatz von Technologien wie GraphFrame, Azure Synapse Analytics, Apache Spark und PowerBI etablierten wir ein robustes System, das nicht nur eine hohe Datenqualität und reibungslose Übertragung gewährleistet, sondern auch den IT-Governance-Prinzipien entspricht.
 
    • Integration eines Logistikdatenstroms mit Kafka durch PySpark Structured Streaming
    • Definition der notwendigen Datenstrukturen für den Datenstrom
    • Robuste und effiziente Integration des Logistikdatenstroms mit Event Hubs
    • Echtzeitnutzung von Logistikdaten für Analyse und Weiterverarbeitung
    • Entwurf und Implementierung von Pipelines zur Erfassung, Verarbeitung und Weiterleitung des Datenstroms
    • Effiziente Datenverarbeitung mit PySpark Structured Streaming
    • Konfiguration und Initialisierung des PySpark Streaming-Jobs
    • Durchführung umfassender Test- und Überwachungsmechanismen
    • Gewährleistung einer reibungslosen Datenübertragung und hoher Datenqualität
    • Services:  
      • Azure Synapse Analytics
      • Purview Data Catalog
      • Apache Spark
      • Event Hub
      • Structured Streaming 
      • GraphFrame
      • Azure Storage v2
      • PowerBI
exali-logo

exali Berufshaftpflicht-Siegel

Das original exali Berufshaftpflicht-Siegel bestätigt dem Auftraggeber, dass die betreffende Person oder Firma eine aktuell gültige branchenspezifische Berufs- bzw. Betriebshaftpflichtversicherung abgeschlossen hat.

Versichert bis: 01.03.2027


Kontaktanfrage

Einloggen & anfragen.

Das Kontaktformular ist nur für eingeloggte Nutzer verfügbar.

RegistrierenAnmelden