09.09.2025 aktualisiert


verifiziert
nicht verfügbarDr Richard Bergmair
Kupferzell, Deutschland
Deutschland +1
Doktorat, Informatik, University of CambridgeSkills
Big DataBusiness IntelligenceData Science ConsultantData Science InfrastrukturData Science Prozesse und InfrastrukturData ScientistData Scientist (PythonNatural Language ProcessingNatural Language Processing (NLP)Predictive ModelingSearch EnginesText AnalysisAmazon RedshiftApache SOLRClickhouseElasticSearchHBase + PhoenixHBase SparkHBase und MapReduceLuceneMongoDBMySQLNoSQLRedisSAP IQRabbitMQzeroMQLinuxCC++JavaPerlPythonETL EntwicklungBayesian Statisticsdeskriptive statistikMachine LearningStatisticsStatistikVisualisationVisualisierenVisualisierungvisualizationvisualizeAmazon EC2Amazon EMRAmazon S3Analytic CubeApache HadoopBeatsCeleryCloudColumn-StoreColumnstoreDockerhdfsHiveiPython NotebookKafkaKibanaKyoto CabinetLevelDBLogstashMatplotibNumPyPHOENIXQGISscikit-learnSciPySybase IQTableauPostgresql
Data Scientist, KI & ML Experte; ex Goldman Sachs, IBM, Telefónica, DuckDuckGo, Univ. of Cambridge;
über 14 Jahre Erfahrung als Data Scientist, Data Engineer, Search Engineer & Backend Entwickler; Doktorat zum Thema Natural Language Processing (NLP) von der Universität von Cambridge; Large Language Models (LLMs) über M.I.T.'s Machine Learning & Artificial Intelligence (ML & AI) Professional Certificate Programm studiert, und in Projekten zum Einsatz gebracht;
über 14 Jahre Erfahrung als Data Scientist, Data Engineer, Search Engineer & Backend Entwickler; Doktorat zum Thema Natural Language Processing (NLP) von der Universität von Cambridge; Large Language Models (LLMs) über M.I.T.'s Machine Learning & Artificial Intelligence (ML & AI) Professional Certificate Programm studiert, und in Projekten zum Einsatz gebracht;
Sprachen
DeutschMutterspracheEnglischverhandlungssicher
Projekthistorie
Der Auftraggeber, CredCore, hatte eine Dokumentensammlung entwickelt, bestehend aus Kreditverträgen und anderen Rechtstexten, die in ihrer Datenstruktur durch KI-gestützte Techniken aufbereitet wurden. Ich entwickelte eine Suchmaschine, um die Dokumente dem Team von Fachbereichsexperten zugänglich zu machen. Insbesondere umfasste dies ein Datenmodell für Apache SolR und Quickwit Tantivy, und eine Python-basierte ETL-Software, um Daten aus MongoDB in die Form zu überführen, die zum Laden in die Suchmaschine notwendig war.
Im Auftrag eines Betreibers einer datenschutzfreundlichen Internet-Suchmaschine arbeitete ich an einem strategisch maßgeblichen Projekt auf Vorstandsebene: Inhalt war die Formulierung eines mathematischen Modells der Anonymitäts-Eigenschaften im Datenaustausch mit Dienstanbietern.
Aufgrund der Tatsache daß es diesbezüglich kein weitgehend akzeptiertes und weitgehend publiziertes Modell für die relevanten Datenstrukturen gab, war kreative mathematische Problemlösung nötig um ein derartiges Modell zu entwickeln.
Aus dem commitment des Auftraggebers im Hinblick auf die Privatsphäre der Nutzer ergab sich die Notwendigkeit, spezielle Methodik zu entwickeln um Statistiken aus dem Produktionssystem zu extrahieren welche die Privatsphäre der Nutzer respektierte. Diese wurden dann durch Monte Carlo Simulation zu Session-Information gemacht die in unserer Analyse an die Stelle „echter“ Session-Information treten konnte.
Diese Daten konnten dann durch unseren Anonymisierungs-Prozess laufen sowie einen Evaluation-Prozess in dem die Anonymität der Daten pre/post Anonymisierung quantifiziert wurde.
Aufgrund der Tatsache daß es diesbezüglich kein weitgehend akzeptiertes und weitgehend publiziertes Modell für die relevanten Datenstrukturen gab, war kreative mathematische Problemlösung nötig um ein derartiges Modell zu entwickeln.
Aus dem commitment des Auftraggebers im Hinblick auf die Privatsphäre der Nutzer ergab sich die Notwendigkeit, spezielle Methodik zu entwickeln um Statistiken aus dem Produktionssystem zu extrahieren welche die Privatsphäre der Nutzer respektierte. Diese wurden dann durch Monte Carlo Simulation zu Session-Information gemacht die in unserer Analyse an die Stelle „echter“ Session-Information treten konnte.
Diese Daten konnten dann durch unseren Anonymisierungs-Prozess laufen sowie einen Evaluation-Prozess in dem die Anonymität der Daten pre/post Anonymisierung quantifiziert wurde.