19.08.2025 aktualisiert


verifiziert
100 % verfügbarCloud Data Engineer & Architect – End-to-End Engineering von Datenplattformen.
Berlin, Deutschland
Weltweit
Universität Potsdam computer scienceSkills
SparkJavaPythonSpark SQLNLPAWS Amazon Web ServicesScalaData EngineeringData ArchitectAIBig Data ArchitectureCloud data architectAWS GlueAWS Athena
Über 15 Jahre Erfahrung in Data Engineering, Datenarchitektur und Data Governance mit Schwerpunkt auf Cloud-Technologien (AWS, GCP). Fundierte Kenntnisse in der Konzeption und Umsetzung von Lakehouse-Architekturen, Data Pipelines und ETL-Prozessen. Expertise in Data Governance, Security, Machine Learning und NLP. Umfangreiche Erfahrung in der Entwicklung und Optimierung von Datenplattformen für Skalierbarkeit, Performance und Kosteneffizienz. Sicher in der Zusammenarbeit mit Stakeholdern sowie in der Entwicklung datengetriebener Produkte und Services. Technologisch versiert in Apache Spark, Python, Scala, Java, Kubernetes, Docker, CI/CD und modernen Cloud-Infrastrukturen.
Sprachen
DeutschverhandlungssicherEnglischverhandlungssicherRussischverhandlungssicher
Projekthistorie
DB InfraGo
Data engineer / Data architect
Key responsibilities:
AWS, Lake Formation, Glue, Athena, EMR, Gitlab CI/CD,Python, CDK, CloudFormation, Lamda, RDS, Gitlab CI/CD, Docker, Kubernetes, ArgoCD, StepFunctions, AirFlow
Data engineer / Data architect
Key responsibilities:
- Design und Umsetzung von Lakehouse-Architektur.
- Entwicklung von Datenmodellen und Sicherstellung von
- Etablierung von Best Practices und Standards in den Bereichen Data Governance, Analytics und Security.
- Unterstützung bei der Umsetzung von Data-Engineering-Aufgaben in AWS-Umgebungen und anderen Cloud-Infrastrukturen.
- Auswahl und Integration geeigneter Datenplattformen, die Skalierbarkeit, Performance und Kosteneffizienz berücksichtigen.
- Entwicklung und Pflege von Architektur- und Geschäftsprozessmodellen, die auf die Anforderungen des Unternehmens abgestimmt sind.
- Enge Zusammenarbeit mit anderen Architekten zur Erstellung eines Business Information Models, das Daten-Domänen, Themenbereiche, Datenobjekte und Attribute definiert.
- Entwicklung von datengetriebenen Produkten und Dienstleistungen in Zusammenarbeit mit Stakeholdern.
AWS, Lake Formation, Glue, Athena, EMR, Gitlab CI/CD,Python, CDK, CloudFormation, Lamda, RDS, Gitlab CI/CD, Docker, Kubernetes, ArgoCD, StepFunctions, AirFlow
Key responsibilities:
Technologies:
Spark, Glue, Athena, EMR, Scala, Python, CDK, CloudFormation, Lamda, RDS, Gitlab CI/CD, Docker, Hudi
- Designing data architecture and pipelines in AWS
- Defining data flows, architecture frameworks, standards and principles
- Migration and optimisation from Cloudera based Datalake to native AWS
- Development of reusable components for ETL pipelines, code standards, architecture code, security and compliance.
Technologies:
Spark, Glue, Athena, EMR, Scala, Python, CDK, CloudFormation, Lamda, RDS, Gitlab CI/CD, Docker, Hudi
Zalando SE
Data Governance and Compliance.
Hauptaufgaben:
Apache Spark, HDFS, Stanford NLP, scikit-learn, gensim, Spark ML, Java, Python, Scala, Terraform, Gradle, CircleCI, Google Cloud, MongoDB, PubSub, BigQuery, Dataproc, workflows-templates, Zeppelin
Data Governance and Compliance.
Hauptaufgaben:
- Konzeption und Entwicklung eines Data Governance and Compliance Agents.
- Go-live technischer und fachlicher Konzeption
- Datenpipeline Entwicklung
- Monitoring and Alerting
- DataOps / DevOps
Apache Spark, HDFS, Stanford NLP, scikit-learn, gensim, Spark ML, Java, Python, Scala, Terraform, Gradle, CircleCI, Google Cloud, MongoDB, PubSub, BigQuery, Dataproc, workflows-templates, Zeppelin