国产 AI 创业公司阶跃星辰(StepFun)今日正式开源了 Step 3.7 Flash 模型。这款模型的突出特点是极高的生成速度——最高可达每秒 400 Tokens,是当前开源模型中生成速度最快的之一。Step 3.7 Flash 在保持高速的同时,仍具备较强的推理和编码能力。
Step 3.7 Flash 采用 MoE(混合专家)架构,总参数量约 380 亿,但每次推理仅激活约 40 亿参数,这使其在保持低延迟的同时具备充足的知识储备。模型在 Hugging Face 和 ModelScope 上同步开放下载。
性能与效率
在标准推理基准测试中,Step 3.7 Flash 的表现令人印象深刻。MMLU 得分 82.3,HumanEval 得分 85.1,在同等参数规模的开源模型中名列前茅。更重要的是,在单卡 A100 上的推理速度达到 400 Tokens/s,是 Llama 3 70B 的约 8 倍。
阶跃星辰表示,Step 3.7 Flash 特别适合实时对话、代码补全和内容生成等对延迟敏感的场景。在消费级显卡 RTX 4090 上也能达到 150+ Tokens/s 的推理速度。
开源生态
阶跃星辰同时开源了推理框架 StepInference,支持 KV Cache 量化和连续批处理。模型采用 Apache 2.0 许可证,允许商业使用。这是国产大模型在开源领域的又一次重要贡献,与 DeepSeek、Qwen 等共同推动了开源 AI 的发展。