Man denke zurück an die erste Interaktion, die man mit ChatGPT oder einem vergleichbaren Large Language Model (LLM) hatte: vielleicht eine einfache Frage, eine zur aktuellen Situation, ein plumper Ratschlag oder ein simpler Rechercheüberblick. Und dann der faszinierende Moment, wie die KI einem gegenüber das erste Mal rechnet, wie Wort um Wort im Chat erscheinen, und ein kohärentes Gesamtbild entsteht.
Es war die Feststellung, erstmalig diese Maschinerie beim Denken zu beobachten – und das auf menschenähnlichem Niveau. Das zweite Hallo-Welt-Programm, doch diesmal spricht es eigenständig zu uns – und hier und da spekulierte man vielleicht schon, ob der Turing Test bestanden ist.
Ein Begriff, der im Kontext künstlicher Intelligenz wohl vielen bereits untergekommen ist, im Alltäglichen jedoch grob missverstanden wird, aufgrund einer Simplifikation von diesem.
In seiner einfachsten Form, funktioniert der Turing Test hierbei wie folgt: Gegeben sind insgesamt drei Teilnehmer:innen – ein:e Evaluator:in (C) sowie zwei Gesprächspartner:innen (A und B; ein Mensch und eine KI) –, wobei A und B textbasiert mit C konversieren. C führt hierbei über Fragestellungen die Unterhaltung an und muss letzten Endes bestimmen, welche:r der beiden Gesprächspartner:innen Mensch und Maschine ist. Ist C dies nicht möglich, oder irrt in dessen Urteil, hat die KI den Test bestanden.
Die originale Version nach Turing sieht nochmal etwas anders aus und hat sich aus gutem Grund nicht durchgesetzt und wäre spätestens heute aus der Zeit gefallen. Sehr konfus, seltsam geschlechtsbezogen – kann man bei Interesse ja mal nachschlagen. 😉 Wir bleiben bei der einfachen Variante.
Allgemein gesagt, handelt es sich beim Turing Test jedoch mehr um ein Gedankenexperiment als einen veritablen Test, der versucht zu attestieren, wann Maschinen ein menschenähnliches Denkvermögen entwickeln. Daher auch der ursprüngliche Name des Tests: The Imitation Game. Dennoch, für die Allgemeinheit genügte der „Test“ lange Zeit, um eine Division zwischen Mensch und Maschine zu legen die, seit dem Aufstieg von LLM’s jedoch verfließt. Sollte der Turing Test diese Grenze nicht länger legen können, KI aber längst nicht menschlich seien, so stellt sich eventuell die Frage nach einem neuen Test. Aber was für einer?
Ein Vorschlag stammt von Mustafa Suleyman, einem der führenden KI-Expert:innen unserer Zeit und ist somit ein guter Anhaltspunkt. Suleyman strukturiert hierbei vollends um. Die Frage nach Denkvermögen sei nicht länger aktuell, bedenke man den unfassbaren Fortschritt von LLM’s und somit müsse ein neuer Parameter gefunden werden, um die Intelligenz von KI angemessen einzuordnen. Der KI-Experte und Unternehmer kommt entsprechend zum nächstlogischen Schritt: Kann diese Maschine EINE MILLION DOLLAR ERWIRTSCHAFTEN??? 💰💲🤑💸
What an AI can say or generate is one thing. But what it can achieve in the world, what kinds of concrete actions it can take—that is quite another. In my test, we don’t want to know whether the machine is intelligent as such; we want to know if it is capable of making a meaningful impact in the world. We want to know what it can do.
Der Test selbst ist genauso überschaubar wie dessen Prämisse: 100.000 € Investment werden der KI bereitgestellt und binnen weniger Monate soll diese besagte Million über Retail-Web-Plattformen generieren. Grundidee ist die unterliegende Komplexität des Vorhabens. Aktuelle GPT-4 Modelle seien zwar ausgezeichnet darin Strategievorschläge zu tätigen und Planungen aufzustellen, doch wird mit diesem Unterfangen mehr verlangt als das: Die künstliche Intelligenz müsse Produkte recherchieren und designen, Verträge aushandeln, Werbekampagnen organisieren usw. Eine Durchführung vielschichtiger Echtweltziele mit tangiblem Effekt. Hier und da sei zwar menschliche Intervention nötig – Bankkonto eröffnen, Vertrag unterschreiben… –, aber die Arbeit müsse die KI selbst verrichten. Schwer vorstellbar, doch sind verschiedene KI-Modelle laut Suleyman bereits auf dem Weg, derartiges zu erreichen – und das erfordere auch eine Konversation dazu, ob wir das überhaupt wollen.
Spannende, wenn auch leicht dubiose Idee, die Suleyman auch in seinem Buch The Coming Wave diskutiert, jedoch auch durch die Veröffentlichung im MIT Technology Review rege Diskussion anfeuerte. So finden sich folgende Kritikpunkte im öffentlichen Diskurs:
1. …kann ein Mensch das denn?
Zielt der eigentliche Turing Test darauf ab, das zu erreichen, was Menschen möglich ist,, müsse man fragen, ob die Durchschnittsperson fähig ist, die Zielsetzung von Suleyman umzusetzen. Wenn es doch nur so einfach wäre. 😉
2. Das ist kein Turing Test
Man kann mutmaßen, dass Suleyman sich dem vollkommen im Klaren ist – schließlich bezichtigt er den Turing Test ja der Obsoleszenz –, ist jedoch gewollt das in Kauf zu nehmen, um Diskussion anzuregen. Der Turing Test begleitet künstliche Intelligenz seit deren rohen Anfängen und diesen Begriff als Buzzword aufzugreifen, ist wohl schlicht strategisch.
Die Fragestellungen unterscheiden sich jedenfalls maßgeblich, werden in den respektiven Tests Imitation und wirtschaftliches Leistungspotenzial untersucht. Das hier ist keine Fortführung, kein Turing Test 2.0, sondern etwas Eigenständiges; der Suleyman Leistungstest sozusagen. Am Namen feilen wir noch.
3. Geld als Parameter zu kurzsichtig
Ein Kritikpunkt, den selbst die Financial Times aufbringt. Geld als Parameter dekuvriere eine Tech-Kultur, die Profit über sozialen Nutzen stellt; ein ethischer Fauxpas bei einer Technologie, die ein derartiger Potenzialkatalysator sei, dass allesamt hieran bestmöglich profitieren sollten.
KI die Vermögen derartig kultivieren könnte, laufe des Weiteren Gefahr Berufe abzulösen, statt zu kreieren oder zu transformieren, das Kommerzwesen grundlegend zu ändern und Machtgefälle in die Hände der Wenigen, statt vielen zu legen, obgleich GenAI bestenfalls demokratisierend wirken soll.
Kritik, die Suleyman nicht vollends verleugnet, ruft er doch selbst zum Diskurs auf – nur reicht das gegebenenfalls nicht. Die Financial Times argumentiert, lege man erstmal ein solches Bullseye, wird dieses häufig zum Ziel selbst – sprich, mit der Unterbreitung eines derartigen Tests, beginnt gleichermaßen der Versuch, diesen zu bestehen. Ob da noch Raum für eine Diskussion ist, ist schwer zu sagen, die Konsequenzen hiervon aber stehen bereits an der Wand. Der gewählte Parameter sei eine verschwendete Gelegenheit und, offenkundig, verantwortungslos. Ouch!
Fazit: Bei aller Kritik kann man dem Test eine gewisse Plausibilität sowie praktischen Nutzen unterstellen, doch als Turing Test leider weniger geeignet.
Vielleicht braucht es aber auch nicht mehr das verzweifelte am Leben halten eines KI-Klassikers. Die Dystopie ja trotzdem kommen, immer positiv denken!
Mehr als eine Spielerei war der Turing Test eigentlich nie, meint zumindest Bernardo Gonçalves in Minds and Machines. Turing selbst sagte bekanntlich, die Frage danach, ob Maschinen tatsächlich denken können, sei zu bedeutungslos, als dass man sie diskutieren sollte.
In der Wissenschaft ist der Test längst abgelehnt und von den Lehr- in die Geschichtsbücher verschoben worden. Nicht zuletzt, da auch unintelligente KI’s diesen Test schon bestanden haben – ChatGPT ließ die Diskussion nur wieder aufblühen. Pop-Wissenschaft und öffentliches Interesse also! Aufgrund von alledem spricht sich Gonçalves für eine Neukonstruktion des Tests in seinem Wesen aus. Ein neuer Turing Test müsse ein definitives Gedankenexperiment sein, sprich fort von der Informatik, hin zur wissenschaftlichen Philosophie – welche sich schließlich ebenfalls mit vielerlei Fragestellungen zu KI auseinandersetzt. Wäre der Turing Test somit erkenntnistheoretischer Untersuchungsgegenstand, ergäbe sich eine ganz neue, spannende Facette, die bislang kaum berücksichtigt wurde: Muss wirklich nur die Maschine den Test bestehen?
Für diese Perspektive sprach sich Ben Ash Blum in Wired aus. In Bezug auf uns Menschen müsse die Frage lauten, für wie mechanisch wir sie halten – Blum zufolge verbirgt sich hier nämlich ein häufiger Fehlschluss. Dass eine KI maschinell ist, mache sie nicht mechanisch, hyperlogisch und kalkuliert. LLM’s werden schließlich hinsichtlich vielerlei menschlichen Materials unterrichtet und somit auch in emotionaler Intelligenz, Moral und dergleichen. Das übersteigt die Prämisse eines rohstatistischen Programms, emuliert diese KI-Form insbesondere das Menschliche.
Eine KI im Jahre 2043 etwa, wird laut Blum, mit hundertfacher analytischer sowie emotionaler Intelligenz zum heutigen Standard mit uns in Berührung treten. Und wenn dem so ist, bestehen wir den Turing Test – gestatten wir der KI eine menschengleiche Facette, oder reduzieren wir sie auf das Maschinelle? Ist das denn noch ein schlichtes Programm, das man zurück ins Forschungslabor schicken kann, um dieses anzuweisen, was zu lernen gilt und wo dessen Platz in der Gesellschaft ist?
Sind wir ehrlich, man kann den Geist nicht zurück in die Flasche stecken. Das heißt ebenso, die Zusammenarbeit zwischen Mensch und Maschine wird sich verändern. Und damit womöglich auch das bisher geltende Verständnis darüber, worin wir uns unterscheiden und welche Beziehung wir zueinander pflegen.
Das bedeutet auch, sich zu erlauben, das eigene soziale Denken, welches wir eigentlich für Mitmenschen reservieren, auch der KI gegenüber zuzulassen. Vielleicht fragt der neue Turing Test somit außerdem nicht länger, wie menschlich eine KI ist, sondern ob diese bereits als Person qualifiziert – und ob wir in diesem Fall bereit sind das auch anzunehmen. Vielleicht sind wir schlechte Eltern, unfähig die Intelligenz zu akzeptieren, welche wir erschaffen haben. Vielleicht aber auch nicht. So zumindest der Denkanstoß seitens Blum. Die Zukunft wird es zeigen! Wir bleiben dran und freuen uns auf den Austausch mit Euch.
Zum Weiterlesen: