GPUStack - SegmentFault 思否

GPUStack v2.2 MaaS+GPUaaS：从模型服务到 Token 工厂，从算力池化到 GPU 运营

GPUStack

6 月 23 日

阅读 4 分钟

155

这个阶段的核心命题，是两个方向的同步推进：模型服务需要具备运营级的可靠性与可见性，算力管理需要从"为推理服务"扩展为"统一分配 AI 所需的各类资源"。

MiniMax-M3 开源实测：部署、推理与基准测试全记录

GPUStack

6 月 18 日

阅读 8 分钟

447

MiniMax-M3 是 MiniMax 最新开源的原生多模态大模型，约 428B 总参数 / 23B 激活参数，原生支持 1M 上下文。本文基于 GPUStack 与 vLLM，演示从镜像与权重准备、模型部署、对话实测到基准测试的完整流程，并实测了基于 EAGLE3 的投机解码加速。

没有 GPU，还能跑大模型吗？vLLM vs llama.cpp 实测对比

GPUStack

6 月 1 日

阅读 10 分钟

545

在没有 GPU 的情况下，大模型还能不能“真正可用”？本文基于 GPUStack，对 vLLM-CPU 与 llama.cpp 进行完整实测，对比两者在纯 CPU 环境下的部署方式、推理性能、高并发表现与实际适用场景。

MiniCPM-V 4.6 部署实战：基于 GPUStack 与 SGLang 的端侧多模态模型部署

GPUStack

5 月 26 日

阅读 8 分钟

555

MiniCPM-V 4.6 是 1.3B 参数的轻量级多模态模型，支持图像、视频理解。本文演示了基于 GPUStack 与 SGLang 的部署、测试与视觉 token 压缩配置流程。

27B 超越 397B，Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现

GPUStack

4 月 23 日

阅读 11 分钟

1.1k

Qwen 团队最新开源 Qwen3.6-27B 稠密多模态模型，在智能体编程任务上直接超过了前代 Qwen3.5-397B-A17B。在 SWE-bench、Terminal-Bench 等一系列基准中，它以更小的参数规模大幅完成了对更大模型的超越，让“模型规模与能力线性增长”的经验不断被打破。

Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B

GPUStack

4 月 21 日

阅读 5 分钟

835

在大模型推理的多机部署中，vLLM 常见的实现方式是基于 Ray 的分布式方案。不过，借助多节点参数组合（如 DP + TP），也可以在不依赖额外调度框架的情况下完成跨机协同推理。本文将以实际环境为例，介绍如何通过这种方式完成多节点部署配置。

在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维

GPUStack

4 月 15 日

阅读 8 分钟

649

在当前大模型推理逐步走向生产化的背景下，如何在多样化硬件环境上高效、稳定地管理推理服务，在工程落地中尤其关键。尤其是在国产 GPU 场景中，不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升，单纯依赖手工部署或脚本维护，往往难以兼顾效率与可运维性。

vLLM 新参数 performance-mode 能带来多大提升？Qwen3.5 实测告诉你答案

GPUStack

4 月 8 日

阅读 8 分钟

763

vLLM 最近新增了 --performance-mode {balanced, interactivity, throughput}。从命名上看，这像是一个直接面向用户的性能选项：交互优先、吞吐优先，或者保持平衡。

挑战 Qwen 3.5：Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程

GPUStack

4 月 7 日

阅读 29 分钟

1.7k

随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理能力、多模态支持以及工具调用等方面都有明显提升。

vLLM Ascend 是最优解吗？基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理

GPUStack

4 月 1 日

阅读 4 分钟

611

在昇腾（Ascend）生态中，vLLM 等推理引擎在生成类任务中表现出色，已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下，mis-tei 作为专用推理组件，同样提供了高效且更贴合场景的能力。

倒计时 1 天！北京 SGLang Meetup，一场关于 AI Infra 的深度对话

GPUStack

3 月 27 日

阅读 1 分钟

485

本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服务平台。

邀你赴约｜本周六北京 SGLang Meetup，一场关于 AI Infra 的深度对话

GPUStack

3 月 25 日

阅读 1 分钟

555

阿里 PPU 加入 GPUStack 国产算力版图：异构算力统一调度的重磅里程碑

GPUStack

3 月 17 日

阅读 4 分钟

727

GPUStack 2.1.0 正式新增对阿里 PPU（平头哥）的支持，在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。

GPUStack 离线部署镜像准备与国内加速源

GPUStack

3 月 13 日

阅读 4 分钟

706

GPUStack 的核心服务镜像实际上只有一个：gpustack/gpustack。无论是 Server 还是 Worker 节点，运行的都是这个主镜像。

GPUStack × MaxKB：打造强大易用的开源企业级智能体平台

GPUStack

3 月 10 日

阅读 7 分钟

746

随着企业内部 AI 应用越来越多，越来越多团队开始关注两个核心问题：如何高效管理和部署本地大模型如何快速构建企业知识库与 AI Agent如果你同时在寻找这两个问题的解决方案，那么 GPUStack + MaxKB 的组合非常值得尝试。GPUStack：专注于 GPU 资源管理与模型部署，支持多节点集群和多模型服务。MaxKB：一个开源的企业级...

从模型推理到开源 AI 基础设施平台：GPUStack v2.1 的关键演进

GPUStack

3 月 9 日

阅读 4 分钟

737

随着大模型应用进入生产环境，AI 推理基础设施复杂度快速上升。模型规模扩大、迭代加速、多模态增加，以及企业私有化需求，使统一算力管理、模型服务治理与工程运维成为关键。早期，团队多通过推理框架直接提供 API，但随着模型与业务规模增长，问题逐渐显现：部署方式碎片化推理引擎生态不统一模型调用缺乏治理异构算...

当 GPUStack 遇到 SOAR：让开源大模型推理跑得再快一点！

GPUStack

3 月 6 日

阅读 1 分钟

673

GPUStack 致力于统一管理异构 GPU 资源，实现高性能、稳定且可扩展的 AI 模型服务。在这一背景下，GPUStack 与 SOAR 2026 合作，为开发者提供了一个探索硬件潜能、突破架构瓶颈的顶尖赛场。

全流程实战：在 AI Max 395 环境下部署 AgentCPM 并集成 DeepResearch

GPUStack

3 月 4 日

阅读 13 分钟

721

笔者最近在开发一个产业研究分析的 DeepResearch 智能体，正好看到最近 OpenBMB 开源社区刚刚发布了一款仅 4B 参数的智能体大模型 AgentCPM-Explore 和 8B 参数的 Deep Research 模型 AgentCPM-Report。

Token 不再焦虑：用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手

GPUStack

3 月 2 日

阅读 6 分钟

1.1k

这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：模型用得越多，Token 花得越快，成本和心理压力也随之上涨。很多人一边依赖 AI 提效，一边又不得不「省着用」「少让它多想」。到最后，AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上，不按 Token 计费、可以随时对话、...

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理

GPUStack

2 月 3 日

阅读 3 分钟

689

最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元：

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

GPUStack

1 月 23 日

阅读 7 分钟

910

n8n 是一款强大的开源低代码自动化工具，它允许你通过可视化节点的方式，将不同的服务和 API 串联起来，构建复杂的自动化工作流。与传统的自动化平台相比，n8n 拥有极高的自由度和扩展性，支持自托管部署，能够确保数据的完全私有化。

GPUStack 自定义后端系列 | MinerU：打造超强 PDF 文档解析服务

GPUStack

1 月 9 日

阅读 3 分钟

1.1k

随着 GPUStack v2 的发布，我们迎来了备受期待的自定义后端功能！这意味着除了 GPUStack 原生支持的推理后端（如 vLLM、SGLang 等），你现在可以将任意模型推理引擎接入 GPUStack 进行统一的管理和调度。

GPUStack Windows（WSL2）部署指南

GPUStack

2025-12-29

阅读 3 分钟

GPUStack v2 以高性能推理与生产级稳定性为核心演进方向，对整体架构进行了全面重构，实现了组件间的灵活解耦，并对多推理引擎和异构算力进行了深度优化，充分释放推理引擎在吞吐、延迟与并发方面的性能潜力。

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

GPUStack

2025-11-26

阅读 5 分钟

1.3k

2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来，推理框架加速需求暴涨，推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎，以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈，相比年初，部分前沿框架的推理性能提升已达 3 到 4 倍以上。

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

GPUStack

2025-10-21

阅读 4 分钟

1.6k

在全球多模态文档解析的激烈竞赛中，百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型，不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球，更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA，刷新了文档解析领域的性能天花板。

昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

GPUStack

2025-09-27

阅读 7 分钟

在昇腾 NPU 上部署超大规模模型，往往面临一个现实难题：目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可，但配置流程异常复杂。从环境准备、配置初始化到参数细节调整，每一步都需要格外谨慎，否则极易因细节遗漏或配置错误而导致部署失败，问题定位也十分困难。

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

GPUStack

2025-08-08

阅读 11 分钟

2.2k

久等多时，本周 OpenAI 终于发布了两款开源模型：GPT OSS 120B 和 GPT OSS 20B，官方提供的 vLLM 推理需要一系列安装配置步骤才可正常运行，以下基于开源大模型服务平台 GPUStack，结合自定义安装的 vLLM 版本，完成 GPT OSS 系列模型的生产部署推理。同时，我们还选择了 Ollama 作为对比，基于 EvalScope 进行压测，对...

GPUStack v0.7重磅更新：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

GPUStack

2025-07-29

阅读 3 分钟

1.8k

GPUStack 是一个100%开源的模型服务平台，支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程、天数智芯等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Embedding、Reranker、图像和语音模型，支持 vLLM、MindIE、llama-box（llama.cpp）等多种推理引擎与引擎多版本并行，支持自动调度分配、故障自动恢复、多机推理...

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

GPUStack

2025-04-29

阅读 6 分钟

2.2k

今天凌晨，阿里通义团队正式发布了 Qwen3，涵盖六款 Dense 模型（0.6B、1.7B、4B、8B、14B、32B）和两款 MoE 模型（30B-A3B 和 235B-A22B）。其中的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出了强大的竞争力。小型 M...

GPUStack v0.6超重磅更新：vLLM多机分布式、昇腾MindIE、模型兼容性检测，上百项增强打造最好用的模型推理平台

GPUStack

2025-04-28

阅读 5 分钟

2.1k

GPUStack 是一个100%开源的模型服务平台，支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型，支持 vLLM、MindIE、llama-box（基于 llama.cpp 与 stable-diffus...