Andreas
Senior Data Scientist bei ZEIT ONLINE
„Wir sind permanent in Bewegung, irgendwo an der Schnittstelle zwischen Software Development, Data Engineering und Data Science, zwischen Natural Language Processing, Statistik und Datenjournalismus.“
Ich heiße Andreas Loos und arbeite als Senior Data Scientist in der Redaktion von ZEIT ONLINE.
Ich bin ein Fan der Print-ZEIT, seit ich sie als Jugendlicher kennengelernt habe und ein Fan von ZEIT ONLINE, seit es die Domain gibt. Lange Jahre habe ich als Wissenschaftsjournalist und als Mathematiker gearbeitet. Irgendwann dachte ich, ich könnte bei ZEIT ONLINE vielleicht beides verbinden und habe mich initiativ beworben. Es hat geklappt – aber ganz anders, als ich mir das damals vorgestellt hatte.
Unsere Arbeit ist extrem vielfältig und agil. Damit meine ich nicht das "agil" aus dem Prozessmanagements-Deutsch, sondern echte Beweglichkeit: buchstäblich täglich neue Aufgaben und Herausforderungen, neue wissenschaftliche Methoden, frische Ideen. Wir sind permanent in Bewegung, irgendwo an der Schnittstelle zwischen Software Development, Data Engineering und Data Science, zwischen Natural Language Processing, Statistik und Datenjournalismus. Manchmal ist auch ein bisschen mathematische Optimierung oder Graphentheorie dabei.
Damit bauen wir Anwendungen, die der Online-Redaktion helfen, besser und schneller zu arbeiten und journalistische Projekte zu realisieren, die manchmal ganz schön viel Mathematik oder Informatik enthalten.
In den letzten Jahren bei ZEIT ONLINE habe ich an einer ganzen Menge sehr spannender Projekte mitgearbeitet. Am wichtigsten waren mir persönlich immer die Aufgaben, bei denen Journalismus, gesellschaftliches Engagement und Mathematik sehr eng zusammenkamen. Beispiele sind das Projekt "49" oder das Projekt "My Country Talks", das aus "Deutschland spricht" hervorgegangen ist. Bei den "49" haben wir aus 30.000 Bewerber*innen 49 Menschen so ausgesucht, dass sie in etwa 70 Faktoren (Einkommen, Wohnortsgröße, Alter, Bildung etc.) die jeweilige Verteilung in der deutschen Bundesbevölkerung nachbildeten. Das haben wir damals als ganzzahliges lineares Optimierungsproblem formuliert. Die 49 Menschen haben dann monatelang miteinander über sehr unterschiedliche Themen diskutiert und sehr interessante Fragen in die Redaktion getragen.
Das Projekt "My Country talks" ist dagegen im Kern ein graphentheoretisches Matching-Problem: Wir versuchen immer wieder Tausende Menschen mit möglichst unterschiedlicher politischer Meinung in Deutschland oder Europa paarweise zusammenzubringen, damit sie über politische und gesellschaftliche Fragen diskutieren können. Demnächst werden wir so bei "The World Talks" Hunderttausende, vielleicht sogar Millionen Menschen weltweit vernetzen – ich bin sehr gespannt, wie viele sich beteiligen werden.
Aktuell sind wir dabei, neue Algorithmen zu entwickeln, insbesondere für Cluster- und Klassifikationsprobleme, die die Strukturen der Daten besser berücksichtigen. Diese Algorithmen wollen wir dann auf verschiedene Daten anwenden, zum Beispiel auf unseren Artikelkorpus oder auf soziale Netzwerke, wie sie zum Beispiel in den Daten des Investigativ-Teams immer wieder eine große Rolle spielen. Das ist aus Forschungssicht interessant, aber eben auch inhaltlich.
Sehr spannend ist derzeit aber auch die rasante Entwicklung bei Large Language Models (LLMs) wie GPT oder Llama. Die große Frage ist, ob und wie man solche Modelle im Journalismus nutzen kann. Da liegen plötzlich nicht nur technische, sondern vor allem interessante ethische Fragen auf dem Tisch, die vorher eher in kleineren Kreisen, unter Datenjournalist*innen oder in der Data Science diskutiert wurden: Welchen Bias haben die Trainingsdaten und wie geht man damit um, dass man die oft nicht kontrollieren kann? Können wir die Qualität der Modelle bzw. der Ergebnisse überhaupt messen? Und wie können wir am Ende Qualität garantieren?
ZEIT ONLINE ist zum einen sehr offen und flexibel, was frische Ideen angeht und hat zum anderen eine sehr lebendige Gesprächskultur. Man findet leicht interessierte Menschen, um Ideen zu sammeln, gemeinsam Projekte auf die Beine zu stellen – oder auch, um den Wert von Lösungen zu diskutieren. Da gibt es schnell auch kritische Fragen. Das kann sehr hilfreich sein. Im kritischen Fragen sind Journalist*innen eben besonders gut.
„Wir sind permanent in Bewegung, irgendwo an der Schnittstelle zwischen Software Development, Data Engineering und Data Science, zwischen Natural Language Processing, Statistik und Datenjournalismus.“