Step 3.7 Flash 是由 Stepfun 開發的高效率 AI 模型,專為真實世界的代理(Agent)應用場景而設計。它在文字生成、即時回應以及生產環境中的可擴展部署方面,提供快速的推論能力。該模型支援多模態理解與行動,能夠處理從產品介面、圖表到自然場景的各種影像,並根據所見內容執行程式碼或呼叫工具。此外,它還能強化網頁與視覺搜尋、提供可靠的工具編排,並與主流代理生態系統整合。
代理式程式開發
開發者可使用 Step 3.7 Flash 進行自動化程式碼生成與除錯,其在 SWE-Bench Pro 上獲得 56.3 分即可證明。
終端機自動化
該模型可驅動終端機與瀏覽器,在 Terminal-Bench 2.1 上獲得 59.5 分,展現出連貫的長時間執行能力。
視覺搜尋
它能辨識其他系統遺漏的長尾實體與新興概念,提升搜尋準確度。
多模態文件分析
使用者可分析產品介面、文件與圖表,並根據提取的資訊採取行動。
工具編排
它能管理跨 Office 工具、搜尋及其他應用程式的複雜工作流程,減少偏離與執行失敗的次數。
代理生態系統整合
可與 Claude Code、KiloCode、Hermes Agent 及 OpenClaw 等框架協作,降低整合成本。
原生多模態理解與行動
處理各類影像——介面、文件、圖表與自然場景——然後撰寫程式碼或呼叫工具,根據所見內容採取行動。
網頁與視覺搜尋強化
網頁搜尋可觸及更多來源並進行更深層的追問;視覺搜尋則能辨識長尾實體與新興概念。
可靠的工具使用與編排
驅動終端機、瀏覽器、Office 工具與搜尋功能,在長時間執行中保持連貫,減少偏離與工具呼叫失敗。
代理生態系統相容性
與主流框架(Claude Code、KiloCode、Hermes Agent、OpenClaw)及技能(Skills)相容,降低整合成本與工作流程改寫需求。
高效率架構
擁有 196B 參數,在 SWE-Bench Pro(56.3)、Terminal-Bench 2.1(59.5)及 Toolathlon(49.5)等基準測試中獲得具競爭力的分數。
多模態基準表現
在 SimpleVQA(搭配工具)獲得 79.2 分,在 V*(搭配 Python)獲得 95.3 分,展現強大的視覺推理能力。
通用代理任務
在 GDPval 獲得 45.8 分,在 ClawEval-1.1(2026-05-09)獲得 67.1 分,在代理導向的評估中表現穩健。
此模型專為 AI 工程師、代理開發者,以及建構生產級自主系統的團隊而設計。它適合任何需要快速、可靠模型來進行程式碼代理、視覺搜尋管線或複雜工具編排工作流程的人。使用 Claude Code 或 OpenClaw 等代理框架的研究人員與整合者,將會發現其生態系統相容性特別有用。
Step 3.7 Flash 可透過 GitHub、HuggingFace 及 ModelScope 取得。使用者可以下載模型權重,並將其整合到現有的代理管線中。如需直接使用,請造訪官方網站 https://static.stepfun.com/blog/step-3.7-flash 以取得文件與部署指南。該模型可與主流代理框架協作,因此您可以將其插入現有設定,幾乎無需改寫。
網站文字中未提及任何定價、免費方案或訂閱計畫。所提供的內容中並無定價資訊。
Step 3.7 Flash 將自身定位為高效率代理模型領域中的強勁競爭者。其基準分數——SWE-Bench Pro 的 56.3 分與 Terminal-Bench 2.1 的 59.5 分——顯示出與 DeepSeek V4 Flash 及 Gemini 3.5 Flash 等更大模型相比仍具競爭力的表現,儘管其參數規模較小(196B)。多模態能力,特別是在 V*(搭配 Python)上獲得 95.3 分,顯示其在真實世界任務中具備可靠的視覺推理能力。與主流框架的生態系統相容性減少了整合障礙,使其成為已在使用代理框架的團隊的實用選擇。雖然它並非在所有基準測試中都名列前茅,但其效率以及對代理可靠性的關注——更少的偏離與更少的工具呼叫失敗——使其成為生產部署中的穩健選擇,尤其是在一致性比原始峰值表現更重要的場景。
Step 3.7 Flash 是 Stepfun 開發的高速 AI 模型,專為快速推論最佳化,實現高效文字生成、即時回應,並可擴展部署於生產環境。
分类:大模型平台
訪問連結:https://static.stepfun.com/blog/step-3.7-flash/
标签:高速推理、即時文字生成、可擴展部署、生產級AI、快速推理