Multimodal2026-04-22TechCrunch AI

ChatGPT Images 2.0 模型擅長生成圖像內文字

OpenAI 最新的圖像生成模型 ChatGPT Images 2.0,以一項突出的技能令用戶和專家感到驚奇:它在圖像中生成連貫、清晰可讀文字的卓越能力。這項進展標誌著多模態 AI 的一次重大飛躍,不僅止於創造逼真的場景或物體,更邁向掌握將書面語言整合到視覺構圖中的複雜任務。 先前的 AI 圖像模型在渲染文字時經常遇到困難,常產生亂碼字符或無意義的單詞形狀。Images 2.0 展現了對排版、佈局和語境的理解有顯著提升。它現在能夠生成包含可讀標誌、商標、手寫筆記和印刷文字的圖像,且這些文字能合乎邏輯地融入場景,例如正確標示的店面招牌或書本上清晰可讀的一頁。 此熟練度凸顯了 AI 視覺推理能力的快速演進。該模型不僅僅是貼上文字;它似乎理解文字與圖像之間的語義關係。這項改進開啟了新的創意和實際應用,從設計行銷材料、概念介面到生成教育內容。此發展顯示,生成式 AI 的下一個前沿不僅在於完善單一模態(文字或圖像),更在於將它們無縫且智能地融合在一起。

相关资讯

更多 AI 资讯

AIStart.ai · 你的专属 AI 启动台