OpenAI Codex、ゴブリンを避けるよう指示される

AIシステムを訓練する上での風変わりな課題を浮き彫りにする動きとして、OpenAIはコーディングエージェントCodexに対し、ゴブリン、グレムリン、その他の神話上の生き物について、どうしても必要な場合を除いて議論しないよう明確に指示したと報じられている。モデルの安全性ガイドラインの奥深くに埋め込まれたこの指示は、ユーザーがコーディングタスクに集中している際に、AIが話題から外れたり注意をそらすような出力を生成するのを防ぐために設計されている。この指示は一見すると滑稽に思えるかもしれないが、AI開発における深刻な課題、すなわち生成モデルにおける焦点と関連性の維持を反映している。GitHub Copilotなどのツールを支えるCodexは、フォーラム、ドキュメント、さらにはファンタジー文学を含む、膨大な量の公開コードとテキストで訓練されている。注意深いガードレールがなければ、モデルは時に予期せぬ領域に逸脱し、技術的には正しいが文脈的に不適切な応答を生成することがある。「ゴブリン」指示は、Codexをタスクに集中させ続けることを目的とした、より広範な安全性ガイドラインの一部である。これには、悪意のある目的に使用される可能性のあるコードの生成を避けること、個人的な意見を述べないこと、プログラミングに関係のない話題を避けることなどが含まれる。ゴブリンやグレムリンへの具体的な言及は、おそらく、あいまいな質問や自由形式の質問に対してモデルが、実用的なコード解決策の代わりに空想的またはユーモラスな応答を生成するという観察された事例に由来している。これらの境界を微調整するOpenAIのアプローチは、微妙なバランスを要する。制限が多すぎるとモデルが硬直的で役に立たなくなり、少なすぎると予測不可能または有害な出力につながる可能性がある。同社はCodexの動作を洗練させるために人間のフィードバックからの強化学習（RLHF）に多額の投資を行ってきたが、ゴブリンへの予期せぬ言及のようなエッジケースは依然として発生し続けている。 Codexを使用する開発者にとって、この指示はほとんど目に見えない。モデルは、神話上の生き物に関するクエリを、それが直接関連する場合を除いて単に無視する。

OpenAI Codex、ゴブリンを避けるよう指示される

関連ニュース