Masterarbeit – Agentic Vision-Language Perception: Multimodale Straßenanalyse für Source-Agnostic Cooperative Perception
18.11.2025, Abschlussarbeiten, Bachelor- und Masterarbeiten
Im Rahmen aktueller Forschungsarbeiten im Bereich Cooperative Perception entwickeln wir Systeme, die Sensordaten aus Fahrzeugen, Infrastruktur und Simulationen kombinieren - unabhängig von Sensortyp, Qualität oder Quelle (source-agnostic perception). Diese Masterarbeit untersucht den Einsatz von Vision-Language Models (VLMs), um Straßenszenen umfassend und semantisch reich zu beschreiben und strukturiert für nachfolgende Fusionsmodule verfügbar zu machen.
Darauf aufbauend soll ein Agentic AI System entwickelt werden, das mithilfe eines LLM/VLM selbstständig entscheidet:
- welche Sensorquelle wie verarbeitet wird,
- wann welche Fusionsstrategie notwendig ist,
- wie Unsicherheiten aus verschiedenen Quellen kompensiert werden.
- Das Ziel ist eine KI-Pipeline, die adaptiv, robust und sensorunabhängig funktioniert – ein Schlüsselbaustein moderner kooperativer Wahrnehmungssysteme.
Aufgaben
- Analyse aktueller Vision-Language Models (GPT-4o, Qwen-VL, LLaVA, InternVL etc.)
- Entwicklung eines Moduls zur Straßen- bzw. Szenenanalyse (BBox-Beschreibung, Risiken, Verkehrsszenen, Relationserkennung)
- Aufbau einer Agentic AI Pipeline zur orchestrierten Steuerung der Fusion
- Strukturierte Extraktion von VLM-Ausgaben in nutzbare maschinenlesbare Formate
- Integration in bestehende TUM-/BMW-Perception-Stacks (CARLA, ROS/ROS2, Infrastruktur-Sensoren)
- Vergleich von Performance, Robustheit und Runtime gegenüber klassischen Methoden
- Optional: Realversuche mit Infrastruktur und BMW-Versuchsfahrzeug
Voraussetzungen
- Studium in Informatik, Elektrotechnik, Robotik, KI, Maschinenwesen oder ähnlichem
- Sehr gute Kenntnisse in Python, erste Erfahrung mit LLMs/VLMs
- Erfahrung mit Deep Learning, ROS, CARLA oder multimodalen Pipelines von Vorteil
- Interesse an autonomem Fahren, semantischer Wahrnehmung und Agentic AI
- Selbstständiger Arbeitsstil und Motivation für moderne KI-Forschung
Wir bieten
- Zugang zu BMW-Fahrzeugdaten, TUM-Infrastruktur und moderner Sensorik
- Möglichkeit zur Veröffentlichung
- Hohe Relevanz für Source-Agnostic Cooperative Perception und zukünftige V2X-Systeme
Kontakt: kuoyi.chao@tum.de


