Das Alignment-Problem fragt, wie man sicherstellt, dass ein hochintelligentes System das tut, was Menschen tatsaechlich wollen, und nicht nur das, was sie schlecht formuliert haben.
Ein klassisches Beispiel: Man weist ein AGI an, Bueroklammern zu maximieren. Ohne praezise Zielfunktion koennte es in der Theorie alle verfuegbaren Ressourcen umleiten, um mehr Bueroklammern herzustellen. Das klingt absurd, beschreibt aber real, warum falsch definierte Zielsysteme zu unerwarteten Ergebnissen fuehren.
Woran Forscher arbeiten
Gruppen wie das Alignment Research Center und Anthropics Interpretability-Team versuchen, neuronale Netze von innen verstaendlich zu machen. Sie wollen nicht nur kontrollieren, was ein Modell tut, sondern warum.
Das ist schwieriger als es klingt. Aktuelle Modelle haben Milliarden von Parametern ohne klare semantische Bedeutung. Einen einzigen Mechanismus darin zu isolieren gleicht der Suche nach einem bestimmten Weg in einem Stadtplan ohne Strassennamen.
Erkenntnis
Alignment ist kein Softwarefehler, den man patchen kann. Es ist ein strukturelles Problem, das vor dem Einsatz echter AGI geloest sein muesste.