阶跃颁布 Step 3.7 Flash:为出产级场景打造高效能 Agent 模型
5月29日,基础大模型创业公司阶跃星辰(StepFun)颁布并开源 Step 3.7 Flash 模型。这是一款专为出产级 Agent 打造的Flash 模型,官方称其致力于在速度、成本、靠得住执行和复杂工作处置能力之间实现更好平衡。
当前,Agent 在从演示阶段急剧走向真实的企业出产环境,这对基础模型竞争提出了全新要求:不只是钻营峰值智能,而要钻营可能在利用场景实现规;母咝е悄。这意味着模型不仅要回覆问题,更要理解复杂输入、自动搜索信息、不变挪用工具,并在多轮长程工作中维持执行一致性。
凭据阶跃星辰官方公家号介绍,Step 3.7 Flash 选取稀少 MoE 架构,总参数 196B+1.8B(ViT)、激活参数仅 11B ,最高天生速度可达 400 Tokens/s,出格适合高频、多轮的 Agent 利用场景,能显著提升工作完功效能。值得关注的是,模型针对出产级 Agent 场景需要优化了关键能力:原生多模态理解与执杏注联网与视觉搜索加强、高靠得住工具挪用与编排及 Agent 生态兼容优化。
Step 3.7 Flash 可能直接处置 UI 界面、图表、文档、图片以及各类利用界面,并将复杂视觉信息转化为结构化了局和可执行工作,并在信息不确按时自动提议搜索进行交叉验证;而在出产级 Agent 最主题的工具挪用靠得住性上,Step 3.7 Flash 进行了针对性优化,可在长程多轮工作流中不变挪用 API、浏览器、终端、Office 工具等,显著降低跑偏和执行失败风险。
图为Step 3.7 基准测试了局
基准测试显示,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 等复杂视觉工作 Benchmark 上,展示出媲美更大规模旗舰模型的能力阐发。而在调查多工具协同的 Toolathlon 上,这款模型的分值达到了 49.5%,并在调查真实环境下日常自主工作执行的 ClawEval-1.1 上达到了 67.1%;在横跨 44 种职业的 GDPval 上达到了 45.8%;在 τ?-bench Telecom 的低、钟注高三档推理难度下通过率均达到 98% 以上。这意味着,它能在多轮 Agent 工作流中不变挪用 API、浏览器、终端、Office 和表部系统,维持工作轨迹一致,降低跑偏和执行失败。
阶跃还对主流 Agent 框架和工具挪用和谈进行了兼容优化,可不变接入Claude Code、OpenClaw、Hermes Agent 等主流 Coding 与 Agent 工具,并支持云端部署与本地部署,降低开发者接入和工作流编排成本。
业内人士以为,随着各行各业加快推动 Agent 落地,Step 3.7 Flash 的设计理想也反映出 Flash 类模型的角色转变:从单纯的轻量代替品,逐步成为支持出产级 Agent 规;涞氐幕∩枋。今年2月,阶跃开源了该系列上一个版本模型 Step 3.5 Flash,同样主打极速、高效地实现 Agent 场景工作,上线一个月即登顶 OpenRouter 平台 OpenClaw 挪用量月榜全球第一。
阶跃暗示,后续将萦绕 Step 3.7 Flash 推诞生态共建打算和生态同伴限时履历活动,与开发者一路索求 Agent 效能的评估方式、工程实际和出产化蹊径。
文章点评
未查问到任何数据!
颁发评论
◎迎接参加会商,请在这里颁发您的见解、互换您的概想。