阶跃星辰推出的 Step3.5Flash 模型专为 Agent 场景设计,凭借 350TPS 的极致推理速度和稀疏 MoE 架构,在保持低成本的同时实现了比肩闭源大模型的性能,旨在成为开发者构建智能体的首选“大脑”。
为Agent而生的速度怪兽
阶跃星辰(Stepfun)近日正式发布了其最新一代开源基座模型——Step3.5Flash。这款模型的定位异常清晰:做一个更聪明、更稳定且成本可控的“Agent 大脑”。
在智能体(Agent)的应用场景中,响应速度往往决定了用户体验的生死。Step3.5Flash 在这方面交出了惊人的答卷:其推理速度最高可达 350 TPS(Tokens Per Second)。这意味着它能在眨眼间生成大段高质量文本,尤其在需要频繁交互的代码编写和即时问答任务中,这种低延迟带来的体验提升是质的飞跃。
稀疏MoE架构与技术创新
Step3.5Flash 的高性能并非单纯堆砌算力,而是源于架构层面的创新。
- 稀疏 MoE 架构 模型总参数量达到 1960 亿,但在每次推理时,通过混合专家(Mixture of Experts)技术,仅激活约 110 亿参数。这种设计在保证了千亿参数级模型“智商”的同时,大幅降低了计算负载。
- MTP-3 技术 引入了多 Token 预测技术,一次预测 3 个 Token,直接将生成效率翻倍。
- 长文本优化 结合滑动窗口与全局注意力机制,模型支持 256K 超长上下文,能够精准捕捉复杂任务中的关键信息,非常适合处理长链条的逻辑任务。
多场景实测与部署
在实际应用中,Step3.5Flash 展现了强大的端云协同能力。它不仅能像“云端大脑”一样将模糊的用户需求拆解为具体的搜索与抓取任务,还能在不依赖外部工具的情况下,独立完成等差数列求和等复杂数学运算。在编程领域,它甚至能仅凭一段描述,自动编写出基于 WebGL 2.0 的可视化平台代码。
目前,该模型已在 GitHub、HuggingFace 和 OpenRouter 上线。为了方便开发者,阶跃星辰专门优化了其在 NVIDIA DGX 和 Apple M4 Max 等个人工作站上的运行性能,进一步降低了高性能 Agent 的开发门槛。与此同时,下一代 Step4 模型的训练也已启动。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!