SF
GPUStack
GPUStack
注册登录
关注博客
注册登录
主页
关于
RSS
GPUStack v2.2 MaaS+GPUaaS:从模型服务到 Token 工厂,从算力池化到 GPU 运营
GPUStack
6 月 23 日
阅读 4 分钟
155
这个阶段的核心命题,是两个方向的同步推进:模型服务需要具备运营级的可靠性与可见性,算力管理需要从"为推理服务"扩展为"统一分配 AI 所需的各类资源"。
MiniMax-M3 开源实测:部署、推理与基准测试全记录
GPUStack
6 月 18 日
阅读 8 分钟
447
MiniMax-M3 是 MiniMax 最新开源的原生多模态大模型,约 428B 总参数 / 23B 激活参数,原生支持 1M 上下文。本文基于 GPUStack 与 vLLM,演示从镜像与权重准备、模型部署、对话实测到基准测试的完整流程,并实测了基于 EAGLE3 的投机解码加速。
没有 GPU,还能跑大模型吗?vLLM vs llama.cpp 实测对比
GPUStack
6 月 1 日
阅读 10 分钟
545
在没有 GPU 的情况下,大模型还能不能“真正可用”?本文基于 GPUStack,对 vLLM-CPU 与 llama.cpp 进行完整实测,对比两者在纯 CPU 环境下的部署方式、推理性能、高并发表现与实际适用场景。
MiniCPM-V 4.6 部署实战:基于 GPUStack 与 SGLang 的端侧多模态模型部署
GPUStack
5 月 26 日
阅读 8 分钟
555
MiniCPM-V 4.6 是 1.3B 参数的轻量级多模态模型,支持图像、视频理解。本文演示了基于 GPUStack 与 SGLang 的部署、测试与视觉 token 压缩配置流程。
27B 超越 397B,Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现
GPUStack
4 月 23 日
阅读 11 分钟
1.1k
Qwen 团队最新开源 Qwen3.6-27B 稠密多模态模型,在智能体编程任务上直接超过了前代 Qwen3.5-397B-A17B。在 SWE-bench、Terminal-Bench 等一系列基准中,它以更小的参数规模大幅完成了对更大模型的超越,让“模型规模与能力线性增长”的经验不断被打破。
Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B
GPUStack
4 月 21 日
阅读 5 分钟
835
在大模型推理的多机部署中,vLLM 常见的实现方式是基于 Ray 的分布式方案。不过,借助多节点参数组合(如 DP + TP),也可以在不依赖额外调度框架的情况下完成跨机协同推理。本文将以实际环境为例,介绍如何通过这种方式完成多节点部署配置。
在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维
GPUStack
4 月 15 日
阅读 8 分钟
649
在当前大模型推理逐步走向生产化的背景下,如何在多样化硬件环境上高效、稳定地管理推理服务,在工程落地中尤其关键。尤其是在国产 GPU 场景中,不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升,单纯依赖手工部署或脚本维护,往往难以兼顾效率与可运维性。
vLLM 新参数 performance-mode 能带来多大提升?Qwen3.5 实测告诉你答案
GPUStack
4 月 8 日
阅读 8 分钟
763
vLLM 最近新增了 --performance-mode {balanced, interactivity, throughput}。从命名上看,这像是一个直接面向用户的性能选项:交互优先、吞吐优先,或者保持平衡。
挑战 Qwen 3.5:Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程
GPUStack
4 月 7 日
阅读 29 分钟
1.7k
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用等方面都有明显提升。
vLLM Ascend 是最优解吗?基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
GPUStack
4 月 1 日
阅读 4 分钟
611
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。
倒计时 1 天!北京 SGLang Meetup,一场关于 AI Infra 的深度对话
GPUStack
3 月 27 日
阅读 1 分钟
485
本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服务平台。
邀你赴约|本周六北京 SGLang Meetup,一场关于 AI Infra 的深度对话
GPUStack
3 月 25 日
阅读 1 分钟
555
本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服务平台。
阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑
GPUStack
3 月 17 日
阅读 4 分钟
727
GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。
GPUStack 离线部署镜像准备与国内加速源
GPUStack
3 月 13 日
阅读 4 分钟
706
GPUStack 的核心服务镜像实际上只有一个:gpustack/gpustack。无论是 Server 还是 Worker 节点,运行的都是这个主镜像。
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台
GPUStack
3 月 10 日
阅读 7 分钟
746
随着企业内部 AI 应用越来越多,越来越多团队开始关注两个核心问题:如何高效管理和部署本地大模型如何快速构建企业知识库与 AI Agent如果你同时在寻找这两个问题的解决方案,那么 GPUStack + MaxKB 的组合非常值得尝试。GPUStack:专注于 GPU 资源管理与模型部署,支持多节点集群和多模型服务。MaxKB:一个开源的企业级...
从模型推理到开源 AI 基础设施平台:GPUStack v2.1 的关键演进
GPUStack
3 月 9 日
阅读 4 分钟
737
随着大模型应用进入生产环境,AI 推理基础设施复杂度快速上升。 模型规模扩大、迭代加速、多模态增加,以及企业私有化需求,使统一算力管理、模型服务治理与工程运维成为关键。 早期,团队多通过推理框架直接提供 API,但随着模型与业务规模增长,问题逐渐显现:部署方式碎片化推理引擎生态不统一模型调用缺乏治理异构算...
当 GPUStack 遇到 SOAR:让开源大模型推理跑得再快一点!
GPUStack
3 月 6 日
阅读 1 分钟
673
GPUStack 致力于统一管理异构 GPU 资源,实现高性能、稳定且可扩展的 AI 模型服务。在这一背景下,GPUStack 与 SOAR 2026 合作,为开发者提供了一个探索硬件潜能、突破架构瓶颈的顶尖赛场。
全流程实战:在 AI Max 395 环境下部署 AgentCPM 并集成 DeepResearch
GPUStack
3 月 4 日
阅读 13 分钟
721
笔者最近在开发一个产业研究分析的 DeepResearch 智能体,正好看到最近 OpenBMB 开源社区刚刚发布了一款仅 4B 参数的智能体大模型 AgentCPM-Explore 和 8B 参数的 Deep Research 模型 AgentCPM-Report。
Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手
GPUStack
3 月 2 日
阅读 6 分钟
1.1k
这两年,越来越多团队把 AI 接入了日常工作流。但很快,一个现实问题摆在了面前:模型用得越多,Token 花得越快,成本和心理压力也随之上涨。很多人一边依赖 AI 提效,一边又不得不「省着用」「少让它多想」。到最后,AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上,不按 Token 计费、可以随时对话、...
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理
GPUStack
2 月 3 日
阅读 3 分钟
689
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元:
GPUStack 实战:n8n 接入本地模型,零成本打造 AI 资讯助手
GPUStack
1 月 23 日
阅读 7 分钟
910
n8n 是一款强大的开源低代码自动化工具,它允许你通过可视化节点的方式,将不同的服务和 API 串联起来,构建复杂的自动化工作流。与传统的自动化平台相比,n8n 拥有极高的自由度和扩展性,支持自托管部署,能够确保数据的完全私有化。
GPUStack 自定义后端系列 | MinerU:打造超强 PDF 文档解析服务
GPUStack
1 月 9 日
阅读 3 分钟
1.1k
随着 GPUStack v2 的发布,我们迎来了备受期待的 自定义后端 功能!这意味着除了 GPUStack 原生支持的推理后端(如 vLLM、SGLang 等),你现在可以将任意模型推理引擎接入 GPUStack 进行统一的管理和调度。
GPUStack Windows(WSL2)部署指南
GPUStack
2025-12-29
阅读 3 分钟
1k
GPUStack v2 以高性能推理与生产级稳定性为核心演进方向,对整体架构进行了全面重构,实现了组件间的灵活解耦,并对多推理引擎和异构算力进行了深度优化,充分释放推理引擎在吞吐、延迟与并发方面的性能潜力。
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场
GPUStack
2025-11-26
阅读 5 分钟
1.3k
2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来,推理框架加速需求暴涨,推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈,相比年初,部分前沿框架的推理性能提升已达 3 到 4 倍以上。
0.9B PaddleOCR-VL 登顶 SOTA!GPUStack 高效推理部署实战指南
GPUStack
2025-10-21
阅读 4 分钟
1.6k
在全球多模态文档解析的激烈竞赛中,百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型,不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球,更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA,刷新了文档解析领域的性能天花板。
昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署
GPUStack
2025-09-27
阅读 7 分钟
2k
在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可,但配置流程异常复杂。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而导致部署失败,问题定位也十分困难。
忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程
GPUStack
2025-08-08
阅读 11 分钟
2.2k
久等多时,本周 OpenAI 终于发布了两款开源模型:GPT OSS 120B 和 GPT OSS 20B,官方提供的 vLLM 推理需要一系列安装配置步骤才可正常运行,以下基于开源大模型服务平台 GPUStack,结合自定义安装的 vLLM 版本,完成 GPT OSS 系列模型的生产部署推理。同时,我们还选择了 Ollama 作为对比,基于 EvalScope 进行压测,对...
GPUStack v0.7重磅更新:macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持
GPUStack
2025-07-29
阅读 3 分钟
1.8k
GPUStack 是一个100%开源的模型服务平台,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程、天数智芯等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像和语音模型,支持 vLLM、MindIE、llama-box(llama.cpp)等多种推理引擎与引擎多版本并行,支持自动调度分配、故障自动恢复、多机推理...
45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务
GPUStack
2025-04-29
阅读 6 分钟
2.2k
今天凌晨,阿里通义团队正式发布了 Qwen3,涵盖六款 Dense 模型(0.6B、1.7B、4B、8B、14B、32B)和两款 MoE 模型(30B-A3B 和 235B-A22B)。其中的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出了强大的竞争力。小型 M...
GPUStack v0.6超重磅更新:vLLM多机分布式、昇腾MindIE、模型兼容性检测,上百项增强打造最好用的模型推理平台
GPUStack
2025-04-28
阅读 5 分钟
2.1k
GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box(基于 llama.cpp 与 stable-diffus...
1
(current)
2
下一页
1
(current)
下一页