数码影音频道 频道

阶跃星辰开源 Step 3.7 Flash 模型:最高 400 Tokens/s 生成速度

“AI摘要”

国产AI创业公司阶跃星辰今日开源Step 3.7 Flash模型,其最大特点是生成速度高达每秒400 Tokens,为开源模型中速度最快的之一。该模型采用MoE架构,总参数量约380亿,每次推理仅激活约40亿参数,在保持低延迟的同时具备较强推理和编码能力。在标准测试中,MMLU得分82.3,HumanEval得分85.1,单卡A100推理速度是Llama 3 70B的约8倍,适合实时对话、代码补全等场景。模型已同步开放下载,并采用Apache 2.0许可证允许商业使用。

  国产 AI 创业公司阶跃星辰(StepFun)今日正式开源了 Step 3.7 Flash 模型。这款模型的突出特点是极高的生成速度——最高可达每秒 400 Tokens,是当前开源模型中生成速度最快的之一。Step 3.7 Flash 在保持高速的同时,仍具备较强的推理和编码能力。

  Step 3.7 Flash 采用 MoE(混合专家)架构,总参数量约 380 亿,但每次推理仅激活约 40 亿参数,这使其在保持低延迟的同时具备充足的知识储备。模型在 Hugging Face 和 ModelScope 上同步开放下载。

  性能与效率

  在标准推理基准测试中,Step 3.7 Flash 的表现令人印象深刻。MMLU 得分 82.3,HumanEval 得分 85.1,在同等参数规模的开源模型中名列前茅。更重要的是,在单卡 A100 上的推理速度达到 400 Tokens/s,是 Llama 3 70B 的约 8 倍。

  阶跃星辰表示,Step 3.7 Flash 特别适合实时对话、代码补全和内容生成等对延迟敏感的场景。在消费级显卡 RTX 4090 上也能达到 150+ Tokens/s 的推理速度。

  开源生态

  阶跃星辰同时开源了推理框架 StepInference,支持 KV Cache 量化和连续批处理。模型采用 Apache 2.0 许可证,允许商业使用。这是国产大模型在开源领域的又一次重要贡献,与 DeepSeek、Qwen 等共同推动了开源 AI 的发展。

0
相关文章