头图

本周AI领域密集发布新成果,阶跃星辰、面壁智能、蚂蚁百灵、Jina AI先后发布实时语音、端侧多模态、万亿思考、全模态向量四大新模型;AI应用端,阿里、腾讯、Google、MiniMax、OpenAI等密集落地智能购物、办公、交互、开发等Agent与工具新功能;同时AI训练范式、评测基准、市场格局也迎来新突破与变化,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

阶跃星辰正式发布新一代实时语音大模型「StepAudio 2.5 Realtime」

5月8日,阶跃星辰正式发布新一代实时语音大模型「StepAudio 2.5 Realtime」,主打真人级实时语音对话体验。该模型实现三大核心突破:具备顶级副语言能力,可精准感知并回应情绪与弦外之音;支持千万级人设自定义,性格、口癖、背景等均可自由设定,角色稳定性强;对话智商与情商双高,能提供有深度、懂情绪的交流。目前该模型已全量上线,开放平台及体验入口同步公布,用户可直接体验预设人设或自定义专属AI语音角色。

面壁智能联合清华、OpenBMB开源端侧多模态大模型「MiniCPM-V 4.6」

5月11日,面壁智能联合清华大学、OpenBMB开源社区发布并开源端侧多模态大模型「MiniCPM-V 4.6」,仅1.3B参数、6G内存即可端侧流畅运行,性能效率平衡最佳,同尺寸模型中登顶,全面超越阿里Qwen3.5-0.8B与谷歌Gemma4-E2B-it;依托LLaVA-UHD v4技术重构ViT架构、推出4倍/ 16倍混合Token压缩双模式,推理效率大幅领先,AA榜单表现亮眼;适配主流微调与推理框架,RTX 4090即可全量微调,已开源并支持多平台部署,落地汽车、手机等多终端场景。

Thinking Machines Lab发布首款交互大模型「TML-Interaction-Small」

5月12日,OpenAI前CTO翁荔创办的Thinking Machines Lab(TML)发布首款交互大模型「TML-Interaction-Small」,终结此前“120亿美元估值0模型”的质疑。该模型打破传统AI回合制交互,以200ms微回合、双模型协同、encoder-free early fusion等技术,实现边听边说边想的实时多模态交互,响应延迟较GPT-realtime-2.0快4倍、交互质量更优;团队历经数月迭代12个版本、留存137页训练日志,依托英伟达与谷歌的顶级算力支持,明确将交互能力植入模型本体的技术路线,后续还将推出更大规模预训练模型,剑指下一代人机协作界面。

Jina AI发布「jina-embeddings-v5-omni」全模态向量小模型

5月13日,Jina AI发布「jina-embeddings-v5-omni」全模态向量小模型,支持文本、图像、音频、视频四模态,文本向量与v5-text逐字节一致、无需重建索引;small版(1.57B参数)以1/5.7参数量追平LCO-7B,nano版(0.95B)性能优于同类小模型;采用冻结编码器+仅训0.35%投影层的架构,训练高效、模块化强,文本/图像/音频表现领先,视频为短板,已开源上线多平台,支持原地升级多模态检索。

蚂蚁百灵大模型开源面向真实复杂任务的万亿级旗舰思考模型「Ring-2.6-1T」

5月15日,蚂蚁百灵大模型正式开源面向真实复杂任务的万亿级旗舰思考模型「Ring-2.6-1T」,聚焦Agent工作流、工程开发等生产场景,实现三大核心突破:Agent执行能力全面增强、新增high/xhigh双档位推理强度机制、创新异步强化学习训练范式;在多项权威评测中达开源SOTA或第一梯队,兼顾效率、成本与推理上限,现已开放多平台开源权重与免费API体验,助力开发者落地各类复杂任务场景。

AI Agent

阿里巴巴宣布千问与淘宝全面打通,开启AI智能购物新体验

5月11日,阿里巴巴宣布千问与淘宝全面打通,用户在千问App可直接完成淘宝商品挑选、对比与下单;在淘宝App通过“千问AI购物助手”,可使用AI试穿、AI算优惠、AI低价帮抢等功能。依托淘宝40亿商品库与20年购物数据,千问能精准理解消费意图,解决用户搜不到、说不清、不知道买什么等购物难题,还提供AI问答、AI种草、AI省钱等服务,带来智能省心的全新AI购物体验。

腾讯云旗下QClaw上线「文件空间」功能

5月11日,腾讯云旗下QClaw上线「文件空间」功能,通过一次授权深度打通本地文件、腾讯文档与ima知识库,实现一站式AI办公闭环。该功能底层打通腾讯文档账号权限,支持一键读取、AI处理并直接生成可协作文档;同时双向联动ima知识库,可调用存量资料分析、沉淀AI产出,彻底告别多应用切换与文件搬运,大幅提升办公协作效率。

Google首发电脑,推出安卓版「Gemini Intelligence」

5月13日,Google在安卓Show大会发布安卓史上最大更新,推出安卓版「Gemini Intelligence」,支持跨App自动执行任务、Chrome集成Gemini插件、口述转文字、自定义桌面组件等,将分批适配三星、Pixel手机及安卓全设备;发布首款为Gemini打造的Googlebook笔记本,搭载智能光标Magic Pointer,可无感调用AI并跨安卓设备协同,正联合宏碁、华硕等厂商打造;同时Google与苹果合作推出端到端加密RCS消息服务,两大巨头移动端AI交锋在即,网友对此次更新褒贬不一。

MiniMax Agent整体升级并更名为「Mavis」

5月13日,MiniMax Agent整体升级并更名为「Mavis」,核心推出Agent Teams功能,支持多Agent并行协作,同时合并TokenPlan与Agent Plan实现订阅权益互通。本次更新旨在解决单Agent易中断、长任务能力衰减、响应不及时、角色分工不足四大痛点,其本质是一套由Leader、Worker、Verifier三类角色组成、依托Team Engine驱动的协作基础设施,而非简单Prompt编排,具备对抗性质量门禁、代码逻辑驱动、上下文隔离等差异化优势,已落地IM秒回、代码开发、行业研究、办公文档四大场景,虽存在交接、共享、聚合等额外成本,但适用于复杂、高风险、长链路任务,短平快任务仍建议用单Agent。

OpenAI宣布「Codex」登陆ChatGPT手机App

5月15日,OpenAI宣布「Codex」登陆ChatGPT手机App(iOS/Android预览版),免费及所有套餐用户均可使用,可随时随地远程审批代码、管理开发任务、同步开发环境状态,支持远程SSH连接,依托安全中继层保障数据安全,覆盖多场景开发协作需求;后续还将推出程序化访问令牌、通用Hooks及HIPAA合规支持等更新,Windows版手机连接功能暂未上线。

AI 工具

微信公布4月九大功能更新,支付接入AI原生能力

5月11日,微信公布4月九大功能更新:微信支付升级AI原生接入能力;AI小程序成长计划加码扶持;企微5.0.8新增记录面聊、AI智能表格等;上线微信表情助手小程序;小游戏升级IAP激励计划,新游首发最高5000万不分成;微信小店新商家享0保证金、1%费率等六大权益;视频号小助手升级,新增个人主页推广分成;微信贴图支持发布原图。

OpenClaw专属桌面操作工具「Peekaboo v3」正式发布并高频更新

5月11日,OpenClaw专属桌面操作工具「Peekaboo v3」正式发布并高频更新,补上AI视觉识别与桌面操作短板,可实现截图、识别界面元素、点击按钮、输入文字等自动化操作,将桌面转化为AI可理解的结构化场景;此前OpenClaw聚焦多渠道消息接入与Agent调度,Peekaboo的加入让其从聊天网关升级为可在本地环境执行任务的系统,推动AI从“会聊天”走向“能干活”,为远程指令与本地执行搭建可靠桥梁,助力Agent从演示走向实用化。

OpenAI成立OpenAI部署公司,并推出网络防御AI工具「Daybreak」

5月12日,OpenAI宣布两大重磅举措:一是成立初始投资超40亿美元、由其控股的OpenAI部署公司,联合19家机构并收购英国AI咨询公司Tomoro,派驻前沿部署工程师深入企业,助力将AI嵌入销售、法务等核心业务流程,从模型供应商转型为AI经济部署层;二是推出网络防御AI工具「Daybreak」,整合OpenAI模型、Codex与安全伙伴资源,自动化漏洞发现、修复及安全响应,推动软件从设计阶段内建防护,强化网络安全能力。

Claude Code推出「Agent View」预览功能,一键管理所有对话

5月12日,Claude Code推出v2.1.139及以上版本可用的「Agent View」预览功能,通过claude agents命令可一屏集中管理多个AI会话,会话按待输入、运行中、已完成分组展示;支持就地回复、随时进出会话、后台持续运行(关机可恢复),多会话通过独立git worktree实现文件隔离,还可通过/bg等多方式启动会话、调用自定义subagent,不过多会话会按数量消耗订阅额度,仅本机运行,删除会话会同步清理worktree,该功能让用户从一对一结对编程转向一对多AI团队管理。

Anthropic面向法律行业推出20余款MCP连接器与12个插件

5月13日,Anthropic面向法律行业推出基于Claude Opus 4.7的20余款MCP连接器与12个执业领域插件,打通合同起草、交易文件、法律研究、电子取证、诉讼等全技术栈,适配Word、Outlook等办公软件并保持上下文连贯;插件覆盖商业法务、企业法务、诉讼法务等12类角色,支持团队定制化工作流,同时联合法律援助机构推出公益优惠与免费工具,降低法律服务门槛,目前已有律所和企业法务团队将其用于全业务运营。

腾讯宣布微信支持一键转发最多100条聊天记录至「AI元宝」

5月13日,腾讯宣布微信支持一键转发最多100条聊天记录至「AI元宝」,由其完成总结、拟回复、生成待办等操作,对话临时且阅后即焚、保障隐私;实测显示元宝能高效梳理二手车咨询、装修沟通、职场群聊及多版稿件等碎片化信息,给出决策建议、砍价话术与工作梳理结果,但存在AI幻觉(如误判视频内容)、数据统计出错等问题;此举是腾讯深化AI与微信生态融合的重要一步,让AI深度嵌入社交场景、便捷服务用户。

网易有道上线企业级大模型聚合平台「ThinkFlow」

5月13日,网易有道上线企业级大模型聚合平台「ThinkFlow」,统一接入调度20余款主流大模型,具备毫秒级高可用、Token消费可视化与数据安全可控等优势,底层源于网易内部实践,至此有道形成从自研教育模型、开源智能体到聚合平台的AI全链条布局,助力企业工程化落地大模型应用。

Google DeepMind推出AI鼠标指针原型「AI-enabled pointer」

5月15日,Google DeepMind推出由Gemini驱动的AI鼠标指针原型「AI-enabled pointer」,以保持操作流畅、指物即可交互、理解指代语义、赋予像素可操作属性为核心,无需手动写提示词,光标悬停或指向内容,AI就能结合视觉与语义理解用户意图并执行操作,还支持头部追踪等交互方式;该交互能力已在Chrome落地,也将登陆Googlebook,它被视为继键盘、鼠标、触屏后的下一代人机交互,让AI主动理解用户、减少认知摩擦,推动交互从人主动表达转向机器主动理解。

阿里云正式发布「Qoder 1.0」,从AI IDE升级为智能体自主开发工作台

5月15日,阿里云正式发布「Qoder 1.0」,从AI IDE升级为智能体自主开发工作台,支持Windows、macOS、Linux全平台使用。新版本推出独立Quest视窗,实现Agent-first开发范式,支持跨项目多任务并行、一屏全局管控;整合团队级知识引擎,显著提升代码质量、降低资源消耗;内置Experts专家团模式,支持自定义专属Agent团队,底层通过重构Agent Harness,以结构化任务运行时与知识工程驱动智能交付,目前已服务全球超500万开发者。

技术突破

OpenAI研究工程师翁家翌提出启发式学习「Heuristic Learning」

5月9日,OpenAI研究工程师翁家翌提出启发式学习「Heuristic Learning」,有望成为继预训练、RLHF、大规模强化学习后的下一代AI训练范式。他通过实验发现,借助大模型代码能力(Coding Agent),无需神经网络、不依赖梯度下降,仅靠手写规则+代码迭代,就能在Atari游戏、机器人控制等任务中取得媲美深度强化学习(Deep RL)的优异成绩。这种范式可解释性强、样本效率高、能缓解神经网络“灾难性遗忘”问题,核心是用代码系统显式固化经验、持续迭代优化;其局限在于代码表达能力有限,难以处理复杂感知与长程泛化,未来将走向启发式系统与神经网络融合,共同解决在线学习与持续学习难题。

市场动态

Hermes Agent Token用量反超OpenClaw,登顶全球AI Agent榜首

5月9日,Nous Research旗下开源智能体「Hermes Agent」(爱马仕)以单日2710亿Token消耗量,首次超越「OpenClaw」(龙虾)登顶OpenRouter全球应用调用榜,累计消耗超6.37万亿Token;小米MiMo-V2-Pro是其调用量最高的模型。Hermes主打持久记忆、自主学习等成长性优势,GitHub获14万星,国内已适配多家云厂商、大模型及办公社交平台。此次登顶标志AI Agent进入真实用量竞争阶段,正冲击AI代码助手,重构软件行业格局。

Einsia AI旗下Navers Lab推出「Frontier-Eng Bench」评测基准

5月12日,Einsia AI旗下Navers Lab推出「Frontier-Eng Bench」,作为Auto Research的关键评测基准,聚焦AI智能体在真实工程任务中的生成式优化能力,而非传统二元对错判断。该基准涵盖5大工程领域、47个真实任务,覆盖GPU优化、电池快充、量子线路设计等硬核场景,通过闭环迭代(提方案-跑实验-读反馈-持续调优)测试智能体在约束下逼近最优解的硬实力,且设计防作弊机制确保结果真实可靠。评测显示GPT-5.4表现最稳健,但当前模型距离资深工程师级跨领域稳定优化仍差距显著;研究还揭示工程优化的双重幂律衰减规律及“宽度有用、深度不可或缺”的核心结论,推动行业从“刷榜”转向关注AI替代科研繁琐调优、实现方案极致落地的实际价值。


MIAOYUN
1 声望2 粉丝

成都元来云志科技有限公司,简称“MIAOYUN”,专注于一站式原生AI云“建管运”的高新技术企业,推出一站式AI应用创作平台,包揽从算力匹配、环境配置到运维监控的全流程部署工作;统一Token化使用体系,让用户无需懂...