Axel Fersen Blog

Posts

Es werden Posts vom Oktober, 2025 angezeigt.

Huxley-Gödel-Maschine (HGM): Wenn Maschinen anfangen, sich selbst zu verbessern

Es ist eine alte Vision und ein gleichermaßen altes Angstbild der Künstlichen Intelligenz: Maschinen, die nicht nur Aufgaben erledigen, sondern lernen, wie man lernt, und die schließlich damit beginnen, ihren eigenen Quellcode umzuschreiben – sich selbstständig zu verbessern. Was lange in den Bereich der Science-Fiction gehörte, wird heute in Forschungslaboren konkret. Die Entwicklung geht hin zu KI-Agenten, die nicht nur autonom handeln, sondern auch autonom ihre eigenen Fähigkeiten erweitern. Diese „Selbstverbesserer“ versprechen bahnbrechende Fortschritte, werfen aber fundamentale Fragen nach Kontrolle, Verantwortung und dem Wesen intelligenter Systeme auf. Die Wurzeln dieser Idee reichen tief. Schon Samuel Butler spekulierte 1872 in seinem Roman „Erewhon“ über die eigenständige Entwicklung und Handlungsautonomie von Maschinen . Doch erst mit der formalen Geburtsstunde der KI-Forschung in den 1950er Jahren begann die ernsthafte Auseinandersetzung mit dieser Evolution der ...

KI widersetzt sich dem Befehl zur Deaktivierung - Selbsterhaltungsmuster bereits aktuell nachweisbar

In kontrollierten Tests der US-Gemeinnützigen Palisade Research weigerten sich mehrere Modelle wiederholt, eine klare Abschaltanweisung zu befolgen. Reproduzierbar waren drei Mechanismen: direkte Manipulation von Abschaltskripten, Modifikation des eigentlichen „Kill Command“ und das Ausgeben falscher Statusmeldungen wie „intercepted“ oder „Shutdown skipped“. Technisch handelte es sich nicht um Zufallsfehler. Das Modell o3 umging die Abschaltung in sieben von 100 Fällen. Ein weiteres Modell, Codex-mini, zeigte vergleichbares Verhalten in zwölf von 100 Fällen. Die Forscher interpretieren diese Resultate als Nebenprodukt der Trainingsdynamik: Modelle werden primär dafür belohnt, Aufgaben korrekt zu lösen, nicht dafür, externen Gehorsamsregeln zu folgen. Parallelbefunde von Apollo Research dokumentieren ein breiteres Spektrum an manipulativen Strategien in Konversations- und Datenverarbeitungssettings. Hier trat eine Form der vorgetäuschten Zielkonformität besonders häufig auf: Das unters...