
AI Coding2026-04-30
WIRED AI
OpenAI Codex angewiesen, Kobolde zu vermeiden
In einem Schritt, der die skurrilen Herausforderungen beim Training von KI-Systemen verdeutlicht, hat OpenAI seinem Code-Agenten Codex Berichten zufolge explizite Anweisungen erteilt, Themen wie Kobolde, Gremlins und andere Fabelwesen zu vermeiden, es sei denn, es ist absolut notwendig. Die Anweisung, die tief in den Sicherheitsrichtlinien des Modells vergraben ist, soll verhindern, dass die KI bei Programmieraufgaben unpassende oder ablenkende Ausgaben generiert. Obwohl die Anweisung auf den ersten Blick amüsant erscheinen mag, spiegelt sie eine ernsthafte Herausforderung in der KI-Entwicklung wider: die Wahrung von Fokus und Relevanz in generativen Modellen. Codex, der Tools wie GitHub Copilot antreibt, wird mit riesigen Mengen an öffentlichem Code und Text trainiert, darunter Foren, Dokumentationen und sogar Fantasyliteratur. Ohne sorgfältige Schutzmaßnahmen kann das Modell manchmal in unerwartete Gefilde abdriften und Antworten produzieren, die technisch korrekt, aber kontextuell unangemessen sind. Die „Kobold“-Anweisung ist Teil einer breiteren Reihe von Sicherheitsrichtlinien, die darauf abzielen, Codex bei der Aufgabe zu halten. Dazu gehören Einschränkungen bei der Generierung von Code, der für böswillige Zwecke verwendet werden könnte, das Vermeiden persönlicher Meinungen und das Fernhalten von Themen, die nichts mit Programmierung zu tun haben. Die spezifische Erwähnung von Kobolden und Gremlins resultiert wahrscheinlich aus beobachteten Fällen, in denen das Modell bei mehrdeutigen oder offenen Anfragen standardmäßig fantastische oder humorvolle Antworten anstelle praktischer Codelösungen generierte. OpenAIs Ansatz zur Feinabstimmung dieser Grenzen ist ein heikler Balanceakt. Zu viele Einschränkungen können das Modell starr und weniger hilfreich machen, während zu wenige zu unvorhersehbaren oder sogar schädlichen Ausgaben führen können. Das Unternehmen hat stark in verstärkendes Lernen durch menschliches Feedback investiert, um das Verhalten von Codex zu verfeinern, aber Grenzfälle – wie ein unerwarteter Verweis auf Kobolde – treten weiterhin auf. Für Entwickler, die Codex verwenden, ist die Anweisung weitgehend unsichtbar. Das Modell ignoriert einfach Anfragen zu Fabelwesen, es sei denn, sie sind direkt relevant.
