26.11.2025 aktualisiert


Premiumkunde
nicht verfügbarAI/ML Engineer / Data Scientist / Software Engineer
Düsseldorf, Deutschland
Deutschland
PhD StatistikSkills
Clean CodeJavaAgile MethodologieKünstliche IntelligenzComputer VisionMicrosoft AzureBig DataC#Cloud ComputingDatenbankenContinuous IntegrationSoftware Design PatternsDesign ThinkingDevopsHadoop Distributed File SystemPythonPostgresqlMachine LearningMongodbNatural Language ProcessingObjektorientierte Software-EntwicklungRabbitmqSoftwareentwicklungSQLTypescriptParquetData ScienceApache YarnApache SparkJupyterBackendGitlabPandasMatplotlibKubernetesCosmos DBMachine Learning OperationsSpacyDocker
Erfahrener Software und Machine Learning Engineer mit praktischer Erfahrung in Big Data, NLP, MLOps und Retrieval-Augmented Generation. Promovierter Statistiker, zertifizierter MS Azure Data Engineer, MS Azure AI Engineer und Spark Developer.
Schnelllerner mit ausgeprägten analytischen Fähigkeiten und hoher Aufmerksamkeit für Implementierungsdetails.
Leistungsstarker Mitarbeiter mit hoher Qualitätsorientierung und einem tiefen Verständnis für die Bedürfnisse der Kunden. Anerkannt von Accenture Technology als TechStar 2018, von PwC als High Performer.
15 Jahren Erfahrung in Softwareentwicklung, 6 Jahre in der Umsetzung von Cloud-basierten KI Anwendungen, 2 Jahre Erfahrung mit Gen AI und RAG
Technical skills:
Data Science: Python, pandas, sklearn, matplotlib, MLOps, MLflow, spaCy, Jupyter, LangChain, OpenAI, AzureML, R, pdfminer, Azure Computer Vision (OCR), Azure Document Intelligence (Form Recognizer)
Databases / Big Data: SQL, PostgreSQL, MongoDB, RabbitMQ, Azure: AI Search, Cosmos DB, Service Bus, Apache Spark, YARN, HDFS, Parquet
Backend / Infrastructure: C#, Java, TypeScript, Docker, Kubernetes, CDKTF, Azure DevOps, Gitlab, CI/CD Pipelines
Methodologies: OOP, Design Patterns, Agile, DevOps, Design Thinking, Clean Code
Schnelllerner mit ausgeprägten analytischen Fähigkeiten und hoher Aufmerksamkeit für Implementierungsdetails.
Leistungsstarker Mitarbeiter mit hoher Qualitätsorientierung und einem tiefen Verständnis für die Bedürfnisse der Kunden. Anerkannt von Accenture Technology als TechStar 2018, von PwC als High Performer.
15 Jahren Erfahrung in Softwareentwicklung, 6 Jahre in der Umsetzung von Cloud-basierten KI Anwendungen, 2 Jahre Erfahrung mit Gen AI und RAG
Technical skills:
Data Science: Python, pandas, sklearn, matplotlib, MLOps, MLflow, spaCy, Jupyter, LangChain, OpenAI, AzureML, R, pdfminer, Azure Computer Vision (OCR), Azure Document Intelligence (Form Recognizer)
Databases / Big Data: SQL, PostgreSQL, MongoDB, RabbitMQ, Azure: AI Search, Cosmos DB, Service Bus, Apache Spark, YARN, HDFS, Parquet
Backend / Infrastructure: C#, Java, TypeScript, Docker, Kubernetes, CDKTF, Azure DevOps, Gitlab, CI/CD Pipelines
Methodologies: OOP, Design Patterns, Agile, DevOps, Design Thinking, Clean Code
Sprachen
DeutschverhandlungssicherEnglischverhandlungssicher
Projekthistorie
Entwicklung einer Retrieval-Augmented-Generation-Plattform (RAG), um Benutzern die Suche nach Informationen in Wissensdatenbanken und das Chatten mit den gefundenen Daten zu ermöglichen. Die Nutzer haben die Möglichkeit, über die Plattform eigene KI-Chatbots zu entwickeln, spezifisches Wissen einzupflegen und dieses ihren Kunden bereitzustellen.
- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR)
- Vektorisierung von Dokumenten, Verwaltung von Vektoren-Datenbank Azure Search
- Prompt Engineering für OpenIA GPT Modelle
- Implementierung fortschrittlicher RAG-Techniken (Query transformation, Multilingual optimization, Hybrid retrieval, Reranking, Compression, Filtering, Referencing)
- Backend development (Python, Typescript, REST)
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes)
- Beitrag zum Open Source projekt Langchain (insbesondere AzureSearch)
Verwendete Technologien: Python, pandas, matplotlib, Jupyter, langchain, OpenAI, GPT, RAG, FastAPI, Pydantic, Microservices, pdfminer, Azure Computer Vision, OCR, SQL, PostgreSQL, prisma, Azure AI Search, Azure Service Bus, TypeScript, Docker, Kubernetes, Pants, CDKTF, Azure DevOps, Git, Gitlab, CI/CD Pipelines, Agile, Scrum, Kanban, DevOps
- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR)
- Vektorisierung von Dokumenten, Verwaltung von Vektoren-Datenbank Azure Search
- Prompt Engineering für OpenIA GPT Modelle
- Implementierung fortschrittlicher RAG-Techniken (Query transformation, Multilingual optimization, Hybrid retrieval, Reranking, Compression, Filtering, Referencing)
- Backend development (Python, Typescript, REST)
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes)
- Beitrag zum Open Source projekt Langchain (insbesondere AzureSearch)
Verwendete Technologien: Python, pandas, matplotlib, Jupyter, langchain, OpenAI, GPT, RAG, FastAPI, Pydantic, Microservices, pdfminer, Azure Computer Vision, OCR, SQL, PostgreSQL, prisma, Azure AI Search, Azure Service Bus, TypeScript, Docker, Kubernetes, Pants, CDKTF, Azure DevOps, Git, Gitlab, CI/CD Pipelines, Agile, Scrum, Kanban, DevOps
https://documentinsights.com
Document Insights ist ein Datenextraktionstool, das die Annotationen bereits aus dem ersten Dokument erlernt. Das Produkt wird häufig bei PwC eingesetzt und spart erheblich an Annotationszeit und -kosten.
- Mitwirkung bei der Vorbereitung eines neuen Business Cases, der zu einem erfolgreichen Produkt entwickelte
- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR, eigene Preprocessing)
- Feature Engineering im NLP-Kontext (SpaCy)
- Aufbau eines ML-Workflows für automatisiertes Training, Testen und die Auswahl von Modellen (Python, pandas, sklearn, matplotlib, MLflow, Jupyter, AzureML )
- Design einer Azure cloud-nativen Systemarchitektur für Skalierbarkeit und hohe Verfügbarkeit
- Backend-Entwicklung (Python, Typescript, REST, FastAPI, Microservices, Pydantic, PostgreSQL )
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes )
- Arbeit in einem Scrum Team, Wissenstransfer und Mentoring
Verwendete Technologien:
Python, Typescript, Natural Language Processing(NLP), SpaCy, Azure Devops, Backend Development, Docker, Kubernetes, CDKTF, Git, PostgreSQL
Machine Learning, Scikit-Learn, Pandas, Matplotlib, Jupyter Notebooks, MlOps, Azure Machine Learning
Document Insights ist ein Datenextraktionstool, das die Annotationen bereits aus dem ersten Dokument erlernt. Das Produkt wird häufig bei PwC eingesetzt und spart erheblich an Annotationszeit und -kosten.
- Mitwirkung bei der Vorbereitung eines neuen Business Cases, der zu einem erfolgreichen Produkt entwickelte
- Extraktion von Daten aus unstrukturierten Dateien (pdfminer, OCR, eigene Preprocessing)
- Feature Engineering im NLP-Kontext (SpaCy)
- Aufbau eines ML-Workflows für automatisiertes Training, Testen und die Auswahl von Modellen (Python, pandas, sklearn, matplotlib, MLflow, Jupyter, AzureML )
- Design einer Azure cloud-nativen Systemarchitektur für Skalierbarkeit und hohe Verfügbarkeit
- Backend-Entwicklung (Python, Typescript, REST, FastAPI, Microservices, Pydantic, PostgreSQL )
- Infrastrukturentwicklung (Azure DevOps, CI/CD Pipelines, Docker, Kubernetes )
- Arbeit in einem Scrum Team, Wissenstransfer und Mentoring
Verwendete Technologien:
Python, Typescript, Natural Language Processing(NLP), SpaCy, Azure Devops, Backend Development, Docker, Kubernetes, CDKTF, Git, PostgreSQL
Machine Learning, Scikit-Learn, Pandas, Matplotlib, Jupyter Notebooks, MlOps, Azure Machine Learning
Für einen externen Kunden von PwC.
Das Ziel des Projekts war es, mithilfe eines Open-Source-Modells Musik zu generieren, basierend auf den lizenzierten Musikdateien des Kunden (Mehrere Millionen Sound- und Audiodateien).
- Übersicht verfügbarer Modelle und Auswahl des zu trainierenden Modells (Audiocraft)
- Sammlung von Text-Metadaten für die Songs aus verschiedenen Online-Quellen
- Sammlung numerischer Merkmale von Spotify und Umwandlung in Textbeschreibungen mit GPT
- Verwendung von Python und Apache Spark, um Metadaten zu sammeln und zu transformieren
- Modelltraining in der Google Cloud Platform
Verwendete Technologien: Python, pandas, Jupyter, OpenAI, GPT, Agile, Apache Spark, Databricks, PySpark, GCP, Aufiocraft
Das Ziel des Projekts war es, mithilfe eines Open-Source-Modells Musik zu generieren, basierend auf den lizenzierten Musikdateien des Kunden (Mehrere Millionen Sound- und Audiodateien).
- Übersicht verfügbarer Modelle und Auswahl des zu trainierenden Modells (Audiocraft)
- Sammlung von Text-Metadaten für die Songs aus verschiedenen Online-Quellen
- Sammlung numerischer Merkmale von Spotify und Umwandlung in Textbeschreibungen mit GPT
- Verwendung von Python und Apache Spark, um Metadaten zu sammeln und zu transformieren
- Modelltraining in der Google Cloud Platform
Verwendete Technologien: Python, pandas, Jupyter, OpenAI, GPT, Agile, Apache Spark, Databricks, PySpark, GCP, Aufiocraft
Zertifikate
Developer Certification for Apache Spark
O'Reilly2017