阶跃星辰开源 Step 3.7 Flash 模型：最高 400 Tokens/s 生成速度-数码影音频道专区

阶跃星辰开源 Step 3.7 Flash 模型：最高 400 Tokens/s 生成速度

作者：钟钧渤编辑：钟钧渤 2026-06-03 10:09 IT168网站原创

“AI摘要”

国产AI创业公司阶跃星辰今日开源Step 3.7 Flash模型，其最大特点是生成速度高达每秒400 Tokens，为开源模型中速度最快的之一。该模型采用MoE架构，总参数量约380亿，每次推理仅激活约40亿参数，在保持低延迟的同时具备较强推理和编码能力。在标准测试中，MMLU得分82.3，HumanEval得分85.1，单卡A100推理速度是Llama 3 70B的约8倍，适合实时对话、代码补全等场景。模型已同步开放下载，并采用Apache 2.0许可证允许商业使用。

　　国产 AI 创业公司阶跃星辰（StepFun）今日正式开源了 Step 3.7 Flash 模型。这款模型的突出特点是极高的生成速度——最高可达每秒 400 Tokens，是当前开源模型中生成速度最快的之一。Step 3.7 Flash 在保持高速的同时，仍具备较强的推理和编码能力。

　　Step 3.7 Flash 采用 MoE（混合专家）架构，总参数量约 380 亿，但每次推理仅激活约 40 亿参数，这使其在保持低延迟的同时具备充足的知识储备。模型在 Hugging Face 和 ModelScope 上同步开放下载。

　　性能与效率

　　在标准推理基准测试中，Step 3.7 Flash 的表现令人印象深刻。MMLU 得分 82.3，HumanEval 得分 85.1，在同等参数规模的开源模型中名列前茅。更重要的是，在单卡 A100 上的推理速度达到 400 Tokens/s，是 Llama 3 70B 的约 8 倍。

　　阶跃星辰表示，Step 3.7 Flash 特别适合实时对话、代码补全和内容生成等对延迟敏感的场景。在消费级显卡 RTX 4090 上也能达到 150+ Tokens/s 的推理速度。

　　开源生态

　　阶跃星辰同时开源了推理框架 StepInference，支持 KV Cache 量化和连续批处理。模型采用 Apache 2.0 许可证，允许商业使用。这是国产大模型在开源领域的又一次重要贡献，与 DeepSeek、Qwen 等共同推动了开源 AI 的发展。

关注我们