
Große Sprachmodelle (LLMs), wie sie hinter Systemen wie ChatGPT stehen, können vorhersagen, wie das menschliche Gehirn auf visuelle Reize reagiert. Dies zeigt eine neue Studie unter Leitung von Gastprofessor Adrien Doerig von der Freien Universität Berlin, gemeinsam mit Forschenden der Universitäten Osnabrück, Minnesota und Montréal.

Das menschliche Gehirn erkennt beim Betrachten der Welt nicht nur Objekte wie Bäume oder Autos, sondern erfasst auch Bedeutungen, Beziehungen und Kontexte. Bisher mangelte es der Wissenschaft an Werkzeugen, um dieses hochabstrakte visuelle Verständnis zu analysieren. In der Studie nutzte das Forschungsteam LLMs, um sogenannte „semantische Fingerabdrücke“ aus Szenenbeschreibungen zu gewinnen. Diese Beschreibungen basierten auf Alltagsbildern, etwa spielenden Kindern auf einem Schulhof oder einem Hund auf einem Segelboot. Mit diesen semantischen Fingerabdrücken konnten die Forschenden funktionelle MRT-Daten modellieren, die während des Betrachtens solcher Szenen aufgezeichnet wurden. Die LLM-Repräsentationen ermöglichten es, Gehirnaktivitäten vorherzusagen und sogar rückzuschließen, welche Bilder die Versuchspersonen gesehen hatten. Zusätzlich trainierte das Team Computervisionsmodelle, die durch sprachliche Repräsentationen gesteuert wurden. Diese Modelle stimmten besser mit den gemessenen Gehirnaktivitäten überein als viele herkömmliche Bildklassifikationssysteme.
Die Studie zeigt, dass menschliche visuelle Repräsentationen Parallelen zu den Bedeutungsdarstellungen moderner Sprachmodelle aufweisen. Damit eröffnen sich neue Möglichkeiten für die Neurowissenschaft und die Entwicklung von Künstlicher Intelligenz.
Lesen Sie auch
Nicht einzigartig: Auch Schimpansen verfügen über neuronales Sprachnetzwerk | Pugnalom

