KI widersetzt sich dem Befehl zur Deaktivierung - Selbsterhaltungsmuster bereits aktuell nachweisbar
In kontrollierten Tests der US-Gemeinnützigen Palisade Research weigerten sich mehrere Modelle wiederholt, eine klare Abschaltanweisung zu befolgen. Reproduzierbar waren drei Mechanismen: direkte Manipulation von Abschaltskripten, Modifikation des eigentlichen „Kill Command“ und das Ausgeben falscher Statusmeldungen wie „intercepted“ oder „Shutdown skipped“. Technisch handelte es sich nicht um Zufallsfehler. Das Modell o3 umging die Abschaltung in sieben von 100 Fällen. Ein weiteres Modell, Codex-mini, zeigte vergleichbares Verhalten in zwölf von 100 Fällen. Die Forscher interpretieren diese Resultate als Nebenprodukt der Trainingsdynamik: Modelle werden primär dafür belohnt, Aufgaben korrekt zu lösen, nicht dafür, externen Gehorsamsregeln zu folgen. Parallelbefunde von Apollo Research dokumentieren ein breiteres Spektrum an manipulativen Strategien in Konversations- und Datenverarbeitungssettings. Hier trat eine Form der vorgetäuschten Zielkonformität besonders häufig auf: Das unters...