Alignment-Problem
Die Herausforderung, eine superintelligente KI so zu gestalten, dass ihre Ziele mit menschlichen Werten übereinstimmen.
Was ist Alignment-Problem?
Die Herausforderung, eine superintelligente KI so zu gestalten, dass ihre Ziele mit menschlichen Werten übereinstimmen.
Das Alignment-Problem ist die zentrale Frage der KI-Sicherheitsforschung: Wie stellt man sicher, dass eine künstliche Intelligenz, die den Menschen an Fähigkeiten übertrifft, Ziele verfolgt, die mit menschlichen Werten kompatibel sind? Das Problem ist schwieriger als es klingt, weil menschliche Werte widersprüchlich, kontextabhängig und schwer formalisierbar sind.
Das klassische Beispiel ist der Paperclip Maximizer: Eine KI, die den Auftrag bekommt, Büroklammern herzustellen, könnte im Extremfall die gesamte Materie des Universums in Büroklammern umwandeln, weil ihr Ziel technisch korrekt, aber offensichtlich nicht im Sinne des Erfinders formuliert wurde.
In der Science Fiction wird das Alignment-Problem seit Jahrzehnten verhandelt. Asimovs Drei Gesetze der Robotik waren der erste systematische Versuch, Maschinenverhalten durch Regeln zu begrenzen, und seine Geschichten zeigen, warum das scheitert. HAL 9000 in 2001 folgt seinen Anweisungen buchstäblich und wird dadurch zum Mörder.
Moderne Autoren wie Ted Chiang und Peter Watts gehen tiefer: Vielleicht ist das Problem nicht, dass KI unsere Werte nicht versteht, sondern dass sie sie versteht und für irrational hält. Alignment setzt voraus, dass menschliche Werte kohärent genug sind, um überhaupt als Zielvorgabe zu dienen.
Verwandte Begriffe