美团技术团队 - SegmentFault 思否

美团海报生成 AIGC 技术创新与实践

美团技术团队

6 月 18 日

阅读 12 分钟

390

一张商业海报，对设计师来说可能是半天工作；对百万中小商家来说，却可能是一道迈不过去的门槛。外包一张专业海报，少则数百、多则数千元；临时促销要求分钟级交付，传统设计流水线却要1到3天；好不容易批量生产出来，质量又参差不齐——这是美团平台上数百万商家每天都在面对的真实困境。AIGC 给了我们一个新的答案，但「...

封面图

从月球漫步到赛博都市，WBench 测出了世界模型的边界

美团技术团队

6 月 12 日

阅读 4 分钟

497

为了彻底搞清这个问题，美团 LongCat 团队提出了 WBench，它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”，能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中，到底卡在了哪里。

封面图

报名｜ACL'26 美团中稿精选：从能力评测到推理优化，构建生成新范式

美团技术团队

6 月 5 日

阅读 4 分钟

627

ACL（Annual Meeting of the Association for Computational Linguistics）是计算语言学和自然语言处理（NLP）领域的国际顶级学术会议。自 1962 年创办以来，ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会，汇聚了来自全球学术界和工业界的顶尖研究者。

封面图

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队

5 月 25 日

阅读 4 分钟

1k

美团正式开源 LongCat-Video-Avatar 1.5，作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里，也能稳定、自然地输出高质量内容，让数字人视频生成从彩排室的完美演练，走向千人千面的真...

封面图

美团跑腿 Skill：一句话，骑手来帮忙

美团技术团队

5 月 22 日

阅读 2 分钟

939

张小明今天已经开了四个小时的会，快递在驿站等了三天，再不取就要退回。他拿起手机，打开AI Claw助手：「帮我去驿站取快递送到家门口。」然后继续去开下一个会议。而骑手已经接单、取件、送达。

封面图

美团 LongCat 开源 General 365：树立推理评测新标尺

美团技术团队

5 月 15 日

阅读 4 分钟

669

大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手，仿佛已经进化出了“人类最强大脑”。但与此同时，如果你问大模型：“离洗车店只有 50 米，我是开车去还是走路去？”。这些号称满分推理的模型，依然会一本正经地为你规划导航路线。

封面图

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

美团技术团队

5 月 8 日

阅读 7 分钟

1.3k

当团队 90% 以上的代码由 AI 生成，31 万行的复杂业务系统还在高速膨胀，你会发现一个反直觉的事实：AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束，不同人用 AI 写出的代码风格各异，系统反而会加速腐化。

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

美团技术团队

4 月 27 日

阅读 6 分钟

910

如果你看过今年春晚武术节目《武BOT》，一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后，是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。

封面图

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

美团技术团队

4 月 20 日

阅读 5 分钟

705

音频生成技术正在经历一场全新的范式迁移——从传统级联架构，逐步向端到端生成范式演进。长期以来，主流的做法是"曲线救国"：合成系统先将音频压缩成梅尔频谱图等中间表征，再依赖神经声码器"翻译"回波形。每一次转换都带来信息损失与误差累积，最终丢失了最需要保留的细腻音色与个性化细节。

封面图

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要“算得对”，更要“证得严”

美团技术团队

4 月 8 日

阅读 7 分钟

802

现如今的大语言模型已经能流畅地写文章、写代码，甚至执行复杂的 Agent 工作流，然而，它们在面对严谨的数学定理证明时，却往往显得力不从心。

封面图

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团技术团队

4 月 3 日

阅读 8 分钟

949

物理世界的信息由图像、声音、文字交织而成。今天的大模型，本质上仍然是以语言为中心的建模系统，语言作为人类智慧符号化表述，在"压缩即智能"的范式下表现出强大的能力。但通往真正的物理世界智能，也许语言并不是世界的边界。视觉、语音与文本等多模态信号，实际上是对现实物理对象的不同侧面投影。

封面图

美团 BI 在指标平台和分析引擎上的探索和实践

美团技术团队

3 月 20 日

阅读 15 分钟

733

在美团，我们构建了以指标平台为核心的新一代 BI 架构，通过自动语义和增强计算两种核心能力的建设，部分解决了传统 BI 平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

封面图

重塑站外体验：大众点评 M 站基于 Qwik.js 的重构实践

美团技术团队

3 月 16 日

阅读 18 分钟

1.1k

为突破传统 Web 框架的性能瓶颈，大众点评增长团队引入 Qwik.js 重构 M 站核心页面架构，解决了重构前页面加载慢、维护成本高的难题。借助“可恢复性”能力，我们甩掉了传统水合的性能损耗，搭配全链路优化与工程化适配，让各个页面的性能指标都得到了明显提升。本文将拆解本次重构的技术选型、原理与落地细节，沉淀前沿框...

封面图

LongCat 为 OpenClaw 装上效率引擎：你的自动化任务还能再快 30%

美团技术团队

3 月 6 日

阅读 5 分钟

1k

OpenClaw 在开发者社区迅速获得 23万+ Stars，因其作为开源、本地优先的个人 AI Agent，能够将大语言模型的推理能力转化为对计算机的实际操作，为构建个人 AI 助手提供了系统级权限与自动化基础。

封面图

美团发布基于 N-gram 全新模型：嵌入扩展新范式，实现轻量化 MoE 高效进化

美团技术团队

2 月 10 日

阅读 4 分钟

1.1k

传统 MoE 架构通常通过增加专家数量来提升模型能力，但随着专家数量增加，会面临边际收益递减和系统通信开销上升等问题。美团 LongCat 团队通过全面的分析与实验发现：嵌入扩展相比专家扩展能获得更优的帕累托前沿。这意味着嵌入扩展在特定条件下相比专家扩展能实现更优的效能边界。

封面图

2025美团技术年货，「马」上到来

美团技术团队

2 月 2 日

阅读 1 分钟

957

时光荏苒，美团技术博客已经陪伴大家走过了 12 个年头。过去一年，美团技术团队在持续深耕中积累了诸多值得分享的实践案例与开源项目。尤其值得关注的是，美团 LongCat 团队在大模型开源领域取得了不少亮眼的成果，这一年，我们陆续发布了覆盖基座模型、图像、视频、语音等多个方向的开源产品与工具，持续助力 AI 技术共...

封面图

多维创新打造强泛化智能体模型，LongCat-Flash-Thinking-2601技术报告发布

美团技术团队

2 月 2 日

阅读 6 分钟

1k

当大模型在数学竞赛、代码编写等领域持续突破，甚至超越顶尖人类专家时，大家难免会好奇：这些在基准测试中拿高分的模型，能否真正落地到复杂多变、充满噪声的真实世界任务中？

封面图

美团EvoCUA刷新开源SOTA，会用电脑还会持续进化的智能体！

美团技术团队

1 月 26 日

阅读 10 分钟

1.2k

大模型虽已具备强大的感知与推理能力，但在面对复杂的计算机图形界面操作（Computer Use）任务时，仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。美团技术团队推出了 EvoCUA 模型并在Github、Huggingface开源，通过构建可验证数据合成引擎与十万级并发的交互沙盒，将训练范式从传统的“静态轨迹模仿”转变为高效的...

封面图

美团 LongCat-Flash-Thinking-2601 发布，工具调用能力登顶开源 SOTA！

美团技术团队

1 月 20 日

阅读 4 分钟

1.2k

近日，美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版，LongCat-Flash-Thinking-2601 在 Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测基准上，均达到开源模型 SOTA 水平。

封面图

AAAI 2026 | 美团技术团队学术论文精选

美团技术团队

1 月 13 日

阅读 5 分钟

1.6k

AAAI 是人工智能领域顶级的国际学术会议，本文精选了美团技术团队被收录的8篇学术论文（附下载链接），覆盖大模型推理、退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域，希望这些论文能对大家有所帮助或启发。

封面图

KuiTest：基于大模型通识的UI交互遍历测试

美团技术团队

1 月 13 日

阅读 7 分钟

1.4k

美团质效技术部联合复旦大学周扬帆教授团队推出KuiTest——零规则UI功能性异常测试工具。KuiTest通过将“人类预期”直接用作Test Oracle，解决了长期以来UI测试Oracle泛化性差的自动化痛点。实验表明，KuiTest异常召回率达86%，误报率仅1.2%，已在执行21万+测试用例，发现百余例有效缺陷，大幅降低人工成本并提升测试覆盖率。

封面图

2025 美团技术团队热门技术文章汇总

美团技术团队

2025-12-29

阅读 8 分钟

1.7k

今年，美团技术团队在持续深耕中涌现出不少值得分享的实践与开源产品&服务。我们从中精选了18篇具有代表性的技术文章，内容涵盖大模型开源、研发技能、产品服务三大方向。值得一提的是，美团 LongCat 团队今年在大模型开源领域成果显著，陆续发布了涵盖基座模型、图像、视频、语音等多个方向的开源产品与工具，期望能够...

封面图

美团 LongCat-Video-Avatar 正式发布，实现开源SOTA级拟真表现

美团技术团队

2025-12-23

阅读 4 分钟

1.3k

今年 8 月，美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现，迅速成为语音驱动虚拟人领域的主流工具，吸引全球数万名开发者的使用。10月底，LongCat 团队开源了 LongCat-Video 视频生成模型，尤其在长视频生成领域具备显著优势。

封面图

大模型剪枝新范式：先浓缩，再剪枝——DenoiseRotator技术解读

美团技术团队

2025-12-19

阅读 4 分钟

1.3k

在大语言模型（LLM）快速发展的今天，庞大的参数规模带来高昂的推理存储成本和回复时延，已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景，模型推理效率直接影响到对话体验。在推理优化方法中，参数剪枝作为一项经典的模型压缩技术，旨在通过剔除模型中“不重要”的权重来实现参数量的显著降低与计算效率的提...

封面图

美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源SOTA

美团技术团队

2025-12-09

阅读 4 分钟

1.4k

当前 AI 图像生成技术需求旺盛，但行业陷入 “两难困境”：闭源大模型性能强劲但无法自行部署或二次定制开发，开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点，制约商业创作与技术普惠。为此，美团 LongCat 团队正式发布并开源 LongCat-Image 模型，通过高性能模型架构设计、系统性的训练策略和数...

封面图

LongCat 上线 AI 生图！精准高效，AI 创作不设限

美团技术团队

2025-12-09

阅读 4 分钟

1.5k

美团 LongCat 全新上线 AI 生图功能，该功能基于 LongCat系列模型「LongCat-Image」打造而成。不仅在文生图任务中实现了“快、真、准” ：出图快速响应、达到摄影棚拍摄质感、中文渲染精准度高；更在图像编辑任务上做到了精准便捷，无需复杂指令，可以用自然语言对图像进行二次编辑。无论是追求高效出图的普通用户，还是需...

封面图

AI Coding与单元测试的协同进化：从验证到驱动

美团技术团队

2025-12-05

阅读 19 分钟

1.5k

AI生成代码质量难以把控！本文分享来自美团的技术实践，三大策略破解AI编程痛点。单测快速验证逻辑正确性，安全网保护存量代码演进，TDD模式精准传递需求。告别「看起来没问题」的错觉，构建AI时代的代码质量保障体系。

封面图

R-HORIZON：探索长程推理边界，复旦 NLP&美团 LongCat 联合提出 LRMs 能力评测新框架

美团技术团队

2025-12-01

阅读 4 分钟

1.3k

随着 OpenAI o1 、 DeepSeek-R1 等大型推理模型（LRMs）的问世， AI 推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维（Long Chain-of-Thought, CoT）在数学推理、代码生成、智能体任务等领域展现出强大能力。

封面图

美团 LongCat 团队发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团技术团队

2025-12-01

阅读 5 分钟

1.4k

大模型的“推理能力”能让机器具备与人类相似的认知和行为能力，能像人一样理解、思考、学习并解决复杂问题。而在众多推理能力评测场景中，数学推理任务是当前衡量和追踪模型推理能力进展的 “黄金标尺”。与此同时，主流数学推理评测体系正面临关键瓶颈：部分顶尖模型在常用的数学推理评测任务中，如 AIME24/25 的正确率已...

封面图

美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService

美团技术团队

2025-11-21

阅读 4 分钟

1.5k

在本地生活服务领域，大模型技术落地正遭遇 “三重困境”：通用能力与领域需求难以适配，复杂场景下服务可靠性与个性化无法兼顾，高昂的数据成本与漫长的训练周期进一步增加了开发难度。更关键的是，行业内缺乏可复用的业务适配框架与真实场景优化方案，导致技术落地效率较低。

封面图

1

1