AI/ML Engineer / Data Scientist / Software Engineer

Düsseldorf, Deutschland

Deutschland

PhD Statistik

Düsseldorf, Deutschland

Deutschland

PhD Statistik

Skills

Clean CodeJavaAgile MethodologieKünstliche IntelligenzComputer VisionMicrosoft AzureBig DataC#Cloud ComputingDatenbankenContinuous IntegrationSoftware Design PatternsDesign ThinkingDevopsHadoop Distributed File SystemPythonPostgresqlMachine LearningMongodbNatural Language ProcessingObjektorientierte Software-EntwicklungRabbitmqSoftwareentwicklungSQLTypescriptParquetData ScienceApache YarnApache SparkJupyterBackendGitlabPandasMatplotlibKubernetesCosmos DBMachine Learning OperationsSpacyDocker

Erfahrener Software und Machine Learning Engineer mit praktischer Erfahrung in Big Data, NLP, MLOps und Retrieval-Augmented Generation. Promovierter Statistiker, zertifizierter MS Azure Data Engineer, MS Azure AI Engineer und Spark Developer.

Schnelllerner mit ausgeprägten analytischen Fähigkeiten und hoher Aufmerksamkeit für Implementierungsdetails.

Leistungsstarker Mitarbeiter mit hoher Qualitätsorientierung und einem tiefen Verständnis für die Bedürfnisse der Kunden. Anerkannt von Accenture Technology als TechStar 2018, von PwC als High Performer.

15 Jahren Erfahrung in Softwareentwicklung, 6 Jahre in der Umsetzung von Cloud-basierten KI Anwendungen, 2 Jahre Erfahrung mit Gen AI und RAG

Technical skills:

Data Science: Python, pandas, sklearn, matplotlib, MLOps, MLflow, spaCy, Jupyter, LangChain, OpenAI, AzureML, R, pdfminer, Azure Computer Vision (OCR), Azure Document Intelligence (Form Recognizer)
Databases / Big Data: SQL, PostgreSQL, MongoDB, RabbitMQ, Azure: AI Search, Cosmos DB, Service Bus, Apache Spark, YARN, HDFS, Parquet
Backend / Infrastructure: C#, Java, TypeScript, Docker, Kubernetes, CDKTF, Azure DevOps, Gitlab, CI/CD Pipelines
Methodologies: OOP, Design Patterns, Agile, DevOps, Design Thinking, Clean Code

Website

Sprachen

DeutschverhandlungssicherEnglischverhandlungssicher

Projekthistorie

Machine Learning Engineer / Software Entwickler (Projekt: Closed GenAI Chat)

PwC Deutschland

Wirtschaftsprüfung, Steuern und Recht

>10.000 Mitarbeiter

Entwicklung einer Retrieval-Augmented-Generation-Plattform (RAG), um Benutzern die Suche nach Informationen in Wissensdatenbanken und das Chatten mit den gefundenen Daten zu ermöglichen. Die Nutzer haben die Möglichkeit, über die Plattform eigene KI-Chatbots zu entwickeln, spezifisches Wissen einzupflegen und dieses ihren Kunden bereitzustellen.

- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR)
- Vektorisierung von Dokumenten, Verwaltung von Vektoren-Datenbank Azure Search
- Prompt Engineering für OpenIA GPT Modelle
- Implementierung fortschrittlicher RAG-Techniken (Query transformation, Multilingual optimization, Hybrid retrieval, Reranking, Compression, Filtering, Referencing)
- Backend development (Python, Typescript, REST)
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes)
- Beitrag zum Open Source projekt Langchain (insbesondere AzureSearch)

Verwendete Technologien: Python, pandas, matplotlib, Jupyter, langchain, OpenAI, GPT, RAG, FastAPI, Pydantic, Microservices, pdfminer, Azure Computer Vision, OCR, SQL, PostgreSQL, prisma, Azure AI Search, Azure Service Bus, TypeScript, Docker, Kubernetes, Pants, CDKTF, Azure DevOps, Git, Gitlab, CI/CD Pipelines, Agile, Scrum, Kanban, DevOps

Machine Learning Engineer / Data Scientist (Projekt: Document Insights)

PwC Deutschland

Wirtschaftsprüfung, Steuern und Recht

>10.000 Mitarbeiter

https://documentinsights.com
Document Insights ist ein Datenextraktionstool, das die Annotationen bereits aus dem ersten Dokument erlernt. Das Produkt wird häufig bei PwC eingesetzt und spart erheblich an Annotationszeit und -kosten.

- Mitwirkung bei der Vorbereitung eines neuen Business Cases, der zu einem erfolgreichen Produkt entwickelte
- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR, eigene Preprocessing)
- Feature Engineering im NLP-Kontext (SpaCy)
- Aufbau eines ML-Workflows für automatisiertes Training, Testen und die Auswahl von Modellen (Python, pandas, sklearn, matplotlib, MLflow, Jupyter, AzureML )
- Design einer Azure cloud-nativen Systemarchitektur für Skalierbarkeit und hohe Verfügbarkeit
- Backend-Entwicklung (Python, Typescript, REST, FastAPI, Microservices, Pydantic, PostgreSQL )
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes )
- Arbeit in einem Scrum Team, Wissenstransfer und Mentoring

Verwendete Technologien:
Python, Typescript, Natural Language Processing(NLP), SpaCy, Azure Devops, Backend Development, Docker, Kubernetes, CDKTF, Git, PostgreSQL
Machine Learning, Scikit-Learn, Pandas, Matplotlib, Jupyter Notebooks, MlOps, Azure Machine Learning

Machine Learning Engineer - Berater (POC Musik Generierung)

PwC Deutschland

Medien und Verlage

>10.000 Mitarbeiter

Für einen externen Kunden von PwC.

Das Ziel des Projekts war es, mithilfe eines Open-Source-Modells Musik zu generieren, basierend auf den lizenzierten Musikdateien des Kunden (Mehrere Millionen Sound- und Audiodateien).

- Übersicht verfügbarer Modelle und Auswahl des zu trainierenden Modells (Audiocraft)
- Sammlung von Text-Metadaten für die Songs aus verschiedenen Online-Quellen
- Sammlung numerischer Merkmale von Spotify und Umwandlung in Textbeschreibungen mit GPT
- Verwendung von Python und Apache Spark, um Metadaten zu sammeln und zu transformieren
- Modelltraining in der Google Cloud Platform

Verwendete Technologien: Python, pandas, Jupyter, OpenAI, GPT, Agile, Apache Spark, Databricks, PySpark, GCP, Aufiocraft

Zertifikate

Kontaktanfrage

Einloggen & anfragen.

Das Kontaktformular ist nur für eingeloggte Nutzer verfügbar.

Registrieren Anmelden