GPT-3 übertrifft Studierende in analogem Denken

Sprachmodelle wie GPT scheinen nicht nur in der Lage zu sein, mithilfe von Künstlicher Intelligenz (KI) Aufgaben zu lösen, allerdings ebenfalls über eine erstaunliche Fähigkeit zu verfügen: das analoge Denken. Forscher❬innen❭ der University of California in Los Angeles (UCLA) haben in einer Studie herausgefunden. Dass GPT-3 sogar besser in der Lösung von Aufgaben ist die analoges Denken erfordern wie Studierende.



Die Studie wurde im Fachmagazin "Nature Human Behaviour" veröffentlicht. Das Team um den Hirn- und KI-Forscher Taylor Webb ließ in zwei Testrunden jeweils rund 50 Studierende der UCLA gegen das Sprachmodell GPT-3 antreten. Dabei mussten sie drei Aufgabenblöcke lösen die analoges Denken erforderten. Die Aufgaben wurden eigens für die Studie erstellt und orientieren sich an standardisierten Tests die bei Aufnahmeprüfungen an US-Universitäten oder bei Intelligenztests verwendet werden.



Bei den ersten drei Aufgaben, bei denen progressive Matrizen gelöst werden mussten, schnitt GPT-3 durchweg besser ab als die Studierenden. Das Sprachmodell hatte eine Trefferquote von 80 Prozent während die menschlichen Teilnehmer nur auf knapp 60 Prozent kamen. Auch bei der Ergänzung von Buchstaben- & Wortfolgen war GPT-3 insgesamt besser, obwohl der Vorsprung geringer war. Erst bei der Aufgabe » kausale Analogien aus Geschichten zu ziehen « lagen die Studierenden vorne. Hier lag die Erfolgsquote bei über 80 Prozent, während GPT-3 nur auf rund 70 Prozent kam.



Die Forscher❬innen❭ schreiben in ihrer Studie, dass GPT-3 "einen abstrakten Begriff der Nachfolge entwickelt hat". Da die natürliche Sprache des Menschen voller Analogien ist und Sprachmodelle darauf trainiert sind menschliche Sprache möglichst realitätsgetreu wiederzugeben ausarbeiten sie quasi automatisch die Fähigkeit, analoge Schlüsse zu ziehen.



Allerdings weist das Team auch auf die Einschränkungen des Systems hin. Die Software erkannte nicht immer von selbst was sie mit den gestellten Problemen anfangen sollte und musste per Prompt dazu aufgefordert werden. Taylor Webb der Leiter der Studie, betont, dass das System "erhebliche Einschränkungen" habe und bei Aufgaben scheitere die zur Verwendung Menschen leicht seien. Doch erste Tests mit GPT-4 deuten darauf hin: Das neue Sprachmodell noch bessere Ergebnisse liefern könnte.






Kommentare


Anzeige