阶跃星辰发布Step3.5Flash 打造350TPS极速智能体大脑

匿名作者
2026-02-02 11:085

阶跃星辰推出的 Step3.5Flash 模型专为 Agent 场景设计,凭借 350TPS 的极致推理速度和稀疏 MoE 架构,在保持低成本的同时实现了比肩闭源大模型的性能,旨在成为开发者构建智能体的首选“大脑”。

为Agent而生的速度怪兽

阶跃星辰(Stepfun)近日正式发布了其最新一代开源基座模型——Step3.5Flash。这款模型的定位异常清晰:做一个更聪明、更稳定且成本可控的“Agent 大脑”。

在智能体(Agent)的应用场景中,响应速度往往决定了用户体验的生死。Step3.5Flash 在这方面交出了惊人的答卷:其推理速度最高可达 350 TPS(Tokens Per Second)。这意味着它能在眨眼间生成大段高质量文本,尤其在需要频繁交互的代码编写和即时问答任务中,这种低延迟带来的体验提升是质的飞跃。

Google_AI_Studio_2026-02-02T03_04_31.656Z.png

图源备注:图片由AI生成

稀疏MoE架构与技术创新

Step3.5Flash 的高性能并非单纯堆砌算力,而是源于架构层面的创新。

  • 稀疏 MoE 架构 模型总参数量达到 1960 亿,但在每次推理时,通过混合专家(Mixture of Experts)技术,仅激活约 110 亿参数。这种设计在保证了千亿参数级模型“智商”的同时,大幅降低了计算负载。
  • MTP-3 技术 引入了多 Token 预测技术,一次预测 3 个 Token,直接将生成效率翻倍。
  • 长文本优化 结合滑动窗口与全局注意力机制,模型支持 256K 超长上下文,能够精准捕捉复杂任务中的关键信息,非常适合处理长链条的逻辑任务。

多场景实测与部署

在实际应用中,Step3.5Flash 展现了强大的端云协同能力。它不仅能像“云端大脑”一样将模糊的用户需求拆解为具体的搜索与抓取任务,还能在不依赖外部工具的情况下,独立完成等差数列求和等复杂数学运算。在编程领域,它甚至能仅凭一段描述,自动编写出基于 WebGL 2.0 的可视化平台代码。

目前,该模型已在 GitHub、HuggingFace 和 OpenRouter 上线。为了方便开发者,阶跃星辰专门优化了其在 NVIDIA DGX 和 Apple M4 Max 等个人工作站上的运行性能,进一步降低了高性能 Agent 的开发门槛。与此同时,下一代 Step4 模型的训练也已启动。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译