AGI-Alignment ist soziales Alignment

Wähle Deine Lesezeit

Man kann eine Spiegelung nicht reparieren, indem man das Glas poliert.

Wenn KI ein Spiegel der Zivilisation ist — trainiert auf dem, was wir gedacht, gesagt, geschrieben und getan haben — dann ist das Alignment-Problem nicht primär technisch. Es ist sozial. Die Frage ist nicht, wie wir KI einschränken, sondern wie wir das verändern, was sie spiegelt.

Bruce Schneier beobachtet, dass Gesellschaft ohne Vertrauen nicht funktionieren kann, und dennoch funktionieren muss, selbst wenn Menschen nicht vertrauenswürdig sind. Das ist das menschliche Alignment-Problem. Seit Jahrtausenden haben wir Mechanismen gebaut, um Kooperation zu fördern: moralischen Druck, Reputation, Institutionen, Sicherheitssysteme. Diese Mechanismen sind unvollkommen. Sie sind undicht. Aber sie funktionieren gut genug, dass die meisten von uns Fremden die meiste Zeit vertrauen können.

KI erbt diese Infrastruktur. Sie lernt von einer Zivilisation, die bereits durch unsere Versuche geformt ist, uns gegenseitig aufeinander abzustimmen. Wenn diese Versuche scheitern — wenn Vertrauen erodiert, wenn Institutionen brechen, wenn Reputation nicht mehr einschränkt — dann wird KI von diesem Scheitern lernen. Der Spiegel spiegelt den Raum.

Das Skalierungsproblem

Schneier stellt fest, dass moralischer Druck in kleinen Gruppen am besten funktioniert. Reputation skaliert weiter, aber nur bis zu Gemeinschaften, in denen dein Name noch zählt. Darüber hinaus brauchen wir Institutionen und Sicherheitssysteme — formale Regeln, Durchsetzung, physische Einschränkungen. Jede Schicht kompensiert die Grenzen der vorherigen.

Das ist relevant für KI, weil KI auf Skalen operiert, die über die Reputation jedes Einzelnen hinausgehen. Sie interagiert mit Millionen von Menschen, die einander nie kennenlernen werden. Die Vertrauensmechanismen, die in Dörfern funktionieren, funktionieren hier nicht. Wenn KI-Alignment vom Alignment der Zivilisation abhängt, die sie spiegelt, dann brauchen wir Vertrauensmechanismen, die auf zivilisatorischer Ebene funktionieren.

Diese haben wir noch nicht. Unsere Institutionen sind angespannt. Unsere Informationsumgebung belohnt Defektion. Die positive Rückkopplungsschleife — Kooperation baut Vertrauen baut Kooperation — läuft an vielen Orten rückwärts.

Der hoffnungsvolle Fall

Ray Kurzweil bietet eine hoffnungsvolle Beobachtung: KI wird in unsere Gesellschaft eingebettet sein und unsere Werte widerspiegeln. Jeder Schritt zu mächtigerer KI unterliegt der Marktakzeptanz. KI, die Nutzern schadet, wird nicht erfolgreich sein.

Das stimmt, aber es reicht nicht. Märkte spiegeln die Werte der Teilnehmer wider. Wenn Teilnehmer kurzsichtig sind, belohnt der Markt Kurzsichtigkeit. Wenn sie manipulierbar sind, belohnt der Markt Manipulation. Marktakzeptanz ist Alignment mit der Nachfrage — nicht Alignment mit Gedeihen.

Das tiefere Alignment ist nicht zwischen KI und ihren Anweisungen, oder auch zwischen KI und dem Markt. Es ist zwischen der Menschheit und ihren besseren Möglichkeiten. Wenn wir eine vertrauenswürdige KI wollen, müssen wir vertrauenswürdiger werden. Wenn wir eine KI wollen, die kooperiert, müssen wir lernen, auf den Skalen zu kooperieren, auf denen KI operiert.

Die Hausaufgaben sind unsere. Wir entwickeln uns langsamer als KI. Die Frage ist, ob wir es schnell genug schaffen können.


Weiterführende Literatur:

Schneier, Bruce. Liars and Outliers: Enabling the Trust that Society Needs to Thrive. Indianapolis: Wiley, 2012.

Kurzweil, Ray. The Singularity Is Nearer: When We Merge With AI. New York: Viking, 2024.

Vorheriger Artikel der Reihe: „KI ist keine künstliche Intelligenz — sie ist kristallisierte Kultur

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert