Step 3.7 Flash 是由阶跃星辰(Stepfun)开发的高效 AI 模型,专为实际智能体应用场景设计。它在文本生成、实时响应方面实现快速推理,并支持生产环境中的可扩展部署。该模型具备多模态理解与行动能力,能够处理从产品界面、图表到自然场景的图像,并根据所见内容执行代码或调用工具。此外,它还增强了网页与视觉搜索、可靠的工具编排能力,并与主流智能体生态系统集成。
智能体编程
开发者可使用 Step 3.7 Flash 进行自动化代码生成与调试,其在 SWE-Bench Pro 上取得了 56.3 的分数。
终端自动化
该模型驱动终端与浏览器,在 Terminal-Bench 2.1 上获得 59.5 分,实现连贯的长时运行。
视觉搜索
它能识别其他系统遗漏的长尾实体与新兴概念,提升搜索准确性。
多模态文档分析
用户可分析产品界面、文档与图表,并根据提取的信息采取行动。
工具编排
它管理跨 Office 工具、搜索及其他应用的复杂工作流,减少偏差与运行失败。
智能体生态系统集成
与 Claude Code、KiloCode、Hermes Agent 和 OpenClaw 等框架兼容,降低集成成本。
原生多模态理解与行动
处理全范围图像——界面、文档、图表与自然场景——然后编写代码或调用工具,根据所见内容行动。
网页与视觉搜索增强
网页搜索覆盖更多来源,支持更深度的追问;视觉搜索识别长尾实体与新兴概念。
可靠的工具使用与编排
驱动终端、浏览器、Office 工具与搜索,在长时运行中保持连贯,减少偏差与工具调用失败。
智能体生态系统兼容性
与主流框架(Claude Code、KiloCode、Hermes Agent、OpenClaw)及技能(Skills)兼容,降低集成成本与工作流重构需求。
高效架构
拥有 196B 参数,在 SWE-Bench Pro(56.3)、Terminal-Bench 2.1(59.5)和 Toolathlon(49.5)等基准测试中取得有竞争力的分数。
多模态基准性能
在 SimpleVQA(带工具)上获得 79.2 分,在 V*(带 Python)上获得 95.3 分,展现出强大的视觉推理能力。
通用智能体任务
在 GDPval 上获得 45.8 分,在 ClawEval-1.1(2026-05-09)上获得 67.1 分,在面向智能体的评估中表现稳健。
该模型专为 AI 工程师、智能体开发者以及构建生产级自主系统的团队打造。它适用于需要快速、可靠模型进行编码智能体、视觉搜索管道或复杂工具编排工作流的任何人。使用 Claude Code 或 OpenClaw 等智能体框架的研究人员与集成者将发现其生态系统兼容性尤为实用。
Step 3.7 Flash 可通过 GitHub、HuggingFace 和 ModelScope 获取。用户可下载模型权重并将其集成到现有智能体管道中。如需直接使用,请访问官方网站 https://static.stepfun.com/blog/step-3.7-flash 获取文档与部署指南。该模型与主流智能体框架兼容,因此您可以将其插入当前设置,只需最少的调整。
网站文本未提及任何定价、免费层级或订阅计划。根据提供的内容,无法获取定价信息。
Step 3.7 Flash 将自身定位为高效智能体模型领域的有力竞争者。其基准分数——SWE-Bench Pro 上 56.3 分和 Terminal-Bench 2.1 上 59.5 分——显示出与 DeepSeek V4 Flash 和 Gemini 3.5 Flash 等更大模型相比具有竞争力的性能,尽管其参数规模较小(196B)。多模态能力,特别是在 V*(带 Python)上 95.3 的分数,表明其在现实任务中具有可靠的视觉推理能力。与主流框架的生态系统兼容性减少了集成摩擦,使其成为已在使用智能体框架的团队的实用选择。虽然它并非在所有基准测试中拔得头筹,但其效率和对智能体可靠性(更少偏差与更少的工具调用失败)的关注,使其成为生产部署中一致性比原始峰值性能更重要的可靠选择。
阶跃星辰Step 3.7 Flash是一款高速AI模型,专为快速推理优化,支持高效文本生成、实时响应及生产环境中的可扩展部署。
分类:大模型平台
访问链接:https://static.stepfun.com/blog/step-3.7-flash/
标签:高速推理、实时文本生成、可扩展部署、生产级AI、快速推理