Kann ein Computer, wie ein Mensch denken oder nicht? Im Zeitalter von Chat GPT sind Fragen wie diese aktueller denn je. Doch bereits in den 1940er und 1950er Jahren wurde Pionierarbeit auf dem Gebiet des maschinellen Lernens geleistet. Und schon damals waren Forschende auf der Suche nach Antworten auf Fragen wie diese.
Der britische Logiker, Mathematiker, Kryptoanalytiker und Informatiker Alan Turing, stellte in seinem Aufsatz „Computing Machinery and Intelligence“ einen Test vor, der als Untersuchungsmethode im Bereich der Künstlichen Intelligenz dienen sollte.
Der Turing-Test soll in einer Versuchsanordnung die Intelligenz von Maschinen nachweisen. Der Test gilt als bestanden, wenn der Computer unter bestimmten Bedingungen menschliche Reaktionen nachahmen kann.
Der Vorläufer des Turing-Tests ist das so genannte „Imitation Game“. Dabei sitzen drei menschliche Teilnehmende in drei getrennten Räumen, die jeweils über einen Bildschirm und eine Tastatur miteinander verbunden sind. In einem Raum sitzt ein männlicher Teilnehmer, im zweiten Raum eine weibliche Teilnehmerin und im dritten Raum ein männlicher oder weiblicher „Schiedsrichter“.
Die weibliche Teilnehmerin versucht nun, den neutralen Schiedsrichter durch die Art und Weise, wie sie einige Fragen beantwortet, davon zu überzeugen, dass sie der männliche Teilnehmer ist. Der Schiedsrichter hat die Aufgabe herauszufinden, wer der männliche Teilnehmer ist.
Die Weiterentwicklung des Imitation Game zum Turing-Test von Alan Turing bringt nun eine KI ins Spiel. Ein Computerterminal wird von einem Computer bedient, während vor den beiden anderen Menschen sitzen. Der Schiedsrichter muss die Teilnehmenden zu einem bestimmten Themenbereich in einem vorgegebenen Format und Kontext befragen.
Nach einer bestimmten Zeit und einer bestimmten Anzahl von Fragen, muss der Schiedsrichter entscheiden, welcher Computer von der KI bedient wird. Dieses Verfahren wird viele Male wiederholt. Wenn der Schiedsrichter die KI in der Hälfte oder weniger der Testdurchläufe nicht erkennt, kann die KI als intelligent eingestuft werden, da sie von dem Schiedsrichter als „genauso menschlich“ wie der menschliche Befragte wahrgenommen wird.
Ein großes Problem am KI-Tests ist sicherlich, dass Alan Turin selbst keine Anforderungen an den Fragesteller formuliert hat. Das erschwert die Interpretation des Tests. Wissenschaftler wie Gary Marcus, Professor für Psychologie und Neurowissenschaften an der New York University, weisen auf die Nachteile des Tests hin. So sagt der Test mit den Chatbots nichts über die Intelligenz der Menschen aus, die ebenfalls am Turing-Test teilnehmen. Zudem sei die KI nicht in der Lage, komplexe Fragestellungen zu beantworten und handle nicht intuitiv.
Ein weiterer Kritikpunkt ist, dass in der Vergangenheit die Art der Fragestellung eingeschränkt werden musste, damit ein Computer eine menschenähnliche Intelligenz aufweisen konnte. Denn lange Zeit erreichte ein Computer nur dann eine hohe Punktezahl im Turing-Test, wenn der Fragesteller Ja- oder Nein-Fragen stellte und sich die Themen ein enges Wissensgebiet betrafen. Wurden offene Fragen gestellt, war die Wahrscheinlichkeit geringer, dass die KI den Menschen täuschen konnte.
Bis heute ist es fraglich, ob der Turing-Test überhaupt einen glaubwürdigen Nachweis von künstlicher Intelligenz erbringen kann. Lässt die täuschend echte Imitation von menschlicher Kommunikation tatsächlich auf eine eigenständige künstliche Intelligenz schließen oder ist sie nichts weiter als eine täuschend echte Imitation?
Anlässlich des 60. Todestages von Alan Turing im Jahr 2014 veranstaltete die University of Reading in London einen Wettbewerb, bei dem ein Chatbot namens Eugene Goostman einen 13-jährigen Jungen simulierte. In den Augen einiger Wissenschaftler hat der Chatbot den Test bestanden, da er 33 Prozent der Juroren getäuscht hat.
Andere argumentieren, dass es nicht genügend Juroren gab und der Test ungültig war, da er nur fünf Minuten dauerte. Ein weiteres Argument ist, dass Programme wie Eugene Goostman vor allem darauf abzielen, die Fragesteller in die Irre zu führen. Auf Fragen, die die KI nicht versteht oder auf die sie keine Antwort parat hat, antwortet sie mit Gegenfragen beantwortet und Ausweichmanövern. Je besser dies gelingt, desto mehr Menschen glauben, mit einem menschlichen Gegenüber zu kommunizieren.
Ein zweites Beispiel ist das Programm Google Duplex, ein Projekt, das es User ermöglicht, Reservierungen per Smartphone vorzunehmen. Im Jahr 2018 hat Google Duplex vor 7.000 Menschen erfolgreich einen Termin bei einem Friseur über das Telefon vereinbart. Die Empfangsdame wusste nicht, dass sie nicht mit einem echten Menschen sprach. Auch dieses Experiment wird von einigen Wissenschaftlern als erfolgreicher Turing-Test angesehen, obwohl es sich nicht auf dem ursprünglichen Format von Alan Turing basiert.
ChatGPT und andere moderne KIs, die auf einem Large Language Model (LLM) basieren, bestehen den Turing-Test inzwischen übrigens regelmäßig. Auch deshalb gilt er in der Wissenschaft deshalb als überholt.
Obwohl der KI-Test von Alan Turing viel Kritik erfahren hat, spielt die Grundidee – die täuschend echte Imitation menschlicher Kommunikation – auch heute noch eine Rolle in der Digitalisierung.
Eva Eggeling, Center Leiterin für Data Driven Design bei Fraunhofer Austria und Leiterin des Innovationszentrums für Digitalisierung und künstliche Intelligenz KI4Life sagt: „Ich glaube jetzt ist er besonders aktuell vor allem seit der großen Popularität von ChatGPT für die breite Bevölkerung.“
Trotz vieler Debatten über die heutige Relevanz des Turing-Tests und die Gültigkeit der darauf basierenden Wettbewerbe ist der Test immer noch ein philosophischer Ausgangspunkt für die Diskussion und Erforschung der KI. Während wir weiterhin Fortschritte in der KI machen und besser verstehen und abbilden, wie das menschliche Gehirn funktioniert, bleibt der Turing-Test grundlegend für die Definition von Intelligenz und ist eine Basis für die Debatte darüber, was wir von Technologien erwarten sollten, um sie als denkende Maschinen zu betrachten.
Also of interest