OpenAI、ChatGPTの画像生成モデルを強化

OpenAIは、ChatGPT Images 2.0のリリースにより、ChatGPTの画像生成機能に大幅なアップグレードを実施しました。新しいモデルは、より鮮明なディテール、より正確なテキスト描画、そして前モデルと比較して全体的な画質の向上を約束しています。初期のテストでは、このアップデートがこれらの約束の多くを実現していることが確認されていますが、特に非英語言語においてはいくつかの制限が残っています。最も顕著な改善点は画像の細部です。ChatGPT Images 2.0は、これまで手が届かなかったフォトリアリスティックな質感、複雑な照明シナリオ、入り組んだパターンを生成できるようになりました。例えば、動物の画像では一本一本の毛が表現され、建築レンダリングではリアルな反射や影が含まれています。これにより、プロダクトデザイン、マーケティング資料、コンセプトアートといったプロフェッショナルな用途において、このモデルははるかに有用になりました。AI画像生成器の弱点として悪名高いテキスト描画も大幅に改善されました。新しいモデルは、異なるフォント、サイズ、向きを処理しながら、読み取り可能なテキストを画像に埋め込むことがはるかに正確になりました。これは、判読可能なテキストが不可欠なポスター、インフォグラフィック、ソーシャルメディアコンテンツの作成において革新的な進歩です。しかしながら、この改善は主に英語に限られています。中国語、アラビア語、ヒンディー語などの言語でテストした場合、モデルは依然として文字化けや無意味な文字を生成しており、OpenAIのトレーニングデータが英語コンテンツに大きく偏っていることを示唆しています。このアップデートでは、構図の理解力も向上しています。ユーザーは複数のオブジェクトと空間的関係を持つ複雑なシーンを指定できるようになり、モデルは一般的にそれらを正しく配置します。例えば、「雨が降る窓のそばの赤い椅子に座っている猫」というプロンプトは、すべての要素を正確に反映した結果を生成するようになりました。これにより、反復的なプロンプト入力の必要性が減り、カジュアルユーザーにとってツールがより使いやすくなっています。ChatGPT Images 2.0は、すべてのChatGPT Plusユーザー向けに順次展開されています。

OpenAI、ChatGPTの画像生成モデルを強化

関連ニュース