Offene Verwaltungsdaten sind eine wertvolle Ressource, die Transparenz, Rechenschaftspflicht und Bürgerbeteiligung fördert. Doch in der Praxis bleiben sie oft ungenutzt: Die Suche nach passenden Datensätzen in umfangreichen Katalogen ist aufwändig, und die Analyse — insbesondere von Geodaten — erfordert technisches Fachwissen und spezielle Software.
In seiner Masterarbeit an der ETH Zürich (Computational Social Science) ging Michael Siebenmann der Frage nach, wie grosse Sprachmodelle (LLMs) diese Hürden abbauen können. Bisherige Ansätze decken oft nur Teilaspekte ab: Entweder beschränken sie sich auf vorgefertigte Antworten oder unterstützen keine Geodaten. Zudem fehlen häufig Transparenz über die Analyseschritte, Mehrsprachigkeit und Schutzmechanismen gegen Fehlinformationen.
Daraus entstanden ist OGD4All — ein prototypisches System, das eine einfache und transparente Interaktion mit raumbezogenen offenen Behördendaten in natürlicher Sprache ermöglicht. Es wurde mit 430 tabellarischen und räumlichen Datensätzen der Stadt Zürich entwickelt und getestet.
Nutzende können Fragen in natürlicher Sprache stellen — zum Beispiel «Wo befinden sich die meisten Bäume in Zürich?» oder «Zeige mir die Bevölkerungsentwicklung nach Quartier» — und erhalten multimodale Antworten: Texte, Tabellen, Diagramme und Karten.
- Natürlichsprachliche Abfragen — keine Programmierkenntnisse nötig
- Automatische Datensatz-Erkennung — das System findet relevante Datensätze aus dem OGD-Katalog
- Multimodale Ergebnisse — Antworten als Text, Tabellen, Diagramme oder Karten
- Transparente Analyse — der generierte Code ist jederzeit einsehbar und nachvollziehbar
Das System nutzt grosse Sprachmodelle (Large Language Models, LLMs) in einer mehrstufigen Architektur: Zuerst werden auf Basis der Nutzerfrage die passenden Datensätze aus dem OGD-Katalog identifiziert. Anschliessend generiert ein LLM Python-Code zur Analyse der Daten und liefert die Ergebnisse in geeigneter Form zurück.
Der Prototyp von OGD4All kann direkt online auf Hugging Face getestet werden. Stellen Sie eine Frage zu den offenen Daten der Stadt Zürich — in natürlicher Sprache, ganz ohne Programmierkenntnisse:
Hinweis: Es handelt sich um einen Forschungsprototyp. Die Ergebnisse können Ungenauigkeiten enthalten und sollten bei Bedarf anhand der Quelldaten überprüft werden.
Titel: OGD4All: A Framework for Accessible Interaction with Geospatial Open Government Data Based on Large Language Models
Autor: Michael Siebenmann
Institution: ETH Zürich, Computational Social Science
Datum: September 2025
Die Arbeit zeigt, dass mittels semantischer Vektorsuche und LLM-basierter Analyse von Metadaten relevante Datensätze automatisch mit hoher Trefferquote gefunden werden können. Ein LLM-basierter Coding-Agent erzeugt anschliessend die gewünschten Auswertungen «on-the-fly» und erreicht in einem eigens entwickelten Benchmark mit 199 Fragen eine analytische Korrektheit von bis zu 95 %. Das System unterstützt mehrere Eingabeformate (Text, Bilder, PDF-Dokumente), ist robust gegenüber Tippfehlern und Umformulierungen und verfügt über mehrsprachige Fähigkeiten — wobei deutsche Eingaben für die Zürcher Daten die besten Ergebnisse liefern.
Neben den quantitativen Evaluationen bestätigen mehrere städtische Fachpersonen aus den Bereichen Open Data, GIS und Stadtplanung das Potenzial des Systems als niederschwelliger Zugang zu offenen Daten. Gleichzeitig verweist die Arbeit auf Risiken: Trotz architektonischer Schutzmechanismen bleibt ein Restrisiko für fehlerhafte Ausgaben bestehen, und der Einsatz proprietärer LLMs wirft Fragen zu Verzerrungen und Datenhoheit auf.
Für die Weiterentwicklung identifiziert die Arbeit mehrere Stossrichtungen: eine nutzerzentrierte Evaluation mit kontrollierten Studien, die Übertragung auf weitere Datenquellen und Städte, sowie die Erweiterung der Analysefähigkeiten — etwa durch spezialisierte Agenten für Routing, Verkehrssimulationen oder 3D-Analysen.
Der Quellcode von OGD4All ist als Open Source auf GitHub verfügbar:
Michael Siebenmann hat OGD4All im Rahmen seiner Masterarbeit an der ETH Zürich im Bereich Computational Social Science entwickelt.
«OGD4All» verwendet über 400 offene Datensätze,
- insbesondere offene Geodaten der Stadt Zürich