在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 gsplat,节省 4 倍显存,训练时间缩短 10%

6 月 25 日
阅读 3 分钟
114
自 2023 年《3D Gaussian Splatting for Real-Time Rendering of Radiance Fields》横空出世以来,3DGS(3D Gaussian Splatting)迅速成为三维重建与新视角合成领域最受关注的技术路线之一。相比传统 NeRF,3DGS 在渲染速度和视觉质量上取得了突破性进展,使实时高保真三维场景重建成为可能。然而,随着研究和产业应用的...
封面图

材料 AI 迈向「可解释时代」,日本团队破解高维光谱黑箱,锁定新材料发现关键特征

6 月 23 日
阅读 5 分钟
151
近年来,机器学习在材料科学领域的应用备受关注,其应用已从早期的结构–性质标量预测(如带隙能量、点缺陷形成能、熔点等)逐步扩展到更复杂的高维物理量建模,其中最具挑战性的方向之一便是材料光谱的预测与解析。
封面图

当AI开始做研究,人类科学家还剩下什么?清华团队打造AgentSociety²人机协同研究环境

6 月 22 日
阅读 7 分钟
241
当 AI Scientists 开始进入科学研究,一个新的问题随之出现:如果 AI 已经能够读文献、生成假设、设计实验、运行仿真、分析结果,甚至撰写论文,人类研究者还应该站在哪里?
封面图

基于 Gemini 1.5 长上下文能力,谷歌对话式医疗系统 AMIE 在 100 例多次就诊场景中达到全科医师的推理水平

6 月 22 日
阅读 5 分钟
302
大语言模型正加速进入医疗健康领域,其应用已从文献检索、病历生成延伸至临床决策支持。其中,辅助诊断是当前较为成熟的方向之一:经医学微调的模型能够基于病史、体征和检查结果给出较高质量的鉴别诊断;具备多轮对话能力的系统,也可通过问诊式交互补充病史信息。
封面图

论文周报 | DeepMind D4RT 统一动态 4D 重建,推理速度飙升 300 倍;打破 AGI 通用幻想,哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

6 月 18 日
阅读 4 分钟
446
理解和重建动态视频中的复杂几何形状与运动轨迹,一直是计算机视觉领域的重大挑战。传统的解决方案往往依赖碎片化的特定任务模型拼凑,或是深陷于计算昂贵的逐帧迭代优化之中。为此,Google DeepMind 联合牛津大学与伦敦大学学院(UCL)的研究团队彻底颠覆了刚性的帧级解码思路,提出了一种简单而强大的前馈统一框架 D4R...
封面图

在线教程丨香港科技大学团队开源首个确定性视频深度框架 DVD,零样本刷新 SOTA

6 月 18 日
阅读 2 分钟
410
深度估计是三维视觉领域最基础也最关键的任务之一。从自动驾驶、机器人导航,到 AR/VR 、数字孪生和视频内容生成,系统都需要准确理解场景中物体与相机之间的空间关系。然而,视频深度估计长期面临一个难以调和的矛盾:以扩散模型为代表的生成式方法拥有强大的语义理解能力,能够借助海量预训练数据推断复杂场景结构,但...
封面图

支持真人、动漫与动物驱动,美团开源多风格音频驱动视频生成框架 LongCat 1.5;百万级图表理解数据集 ChartNet,提升 VLM 图表重建与表格提取能力

6 月 16 日
阅读 4 分钟
475
LongCat-Video-Avatar 1.5 由美团 LongCat 团队于 2026 年 5 月推出,是一款全新的开源音频驱动视频生成(AI2V)框架。用户仅需提供一张静态参考图和一段音频,即可生成口型精准同步的动态化身视频。该模型采用 Whisper 驱动的语音特征提取;步数蒸馏技术将 DiT 生成过程压缩至极速的 8 步,不仅保证高保真画面,还能生...
封面图

谷歌 DeepMind 最新论文揭秘 AI 终局:从 AGI 到 ASI,有 4 条路和 6 道关

6 月 15 日
阅读 5 分钟
471
过去十年,人工智能的发展速度不断刷新人们的预期。曾经还停留在科幻设想中的 AGI,正在成为许多大型 AI 机构面向未来十年的明确目标。但一个更值得追问的问题是:如果 AGI 真的到来,AI 的发展会停在那里吗?
封面图

在线教程丨最高 4 倍生成速度提升,DiffusionGemma 可同时生成整块文本,基于多轮并行去噪持续优化结果

6 月 12 日
阅读 3 分钟
563
6 月 11 日,Google 正式开源了基于离散扩散(Discrete Diffusion)技术构建的文本生成模型 DiffusionGemma 。其基于 Gemma 4 系列领先行业的「参数效率智能性」(intelligence-per-parameter)以及前沿的 Gemini Diffusion 研究成果打造,并集成了全新的扩散解码头(Diffusion Head),以最大化生成速度。与传统大模型...
封面图

麻省理工/IBM 提出迄今为止最大的合成图表数据集 ChartNet,生成 150 万个多样化图表样本

6 月 11 日
阅读 5 分钟
513
过去两年,多模态大模型的发展速度远超预期。从识别图片内容,到理解复杂文档,再到解析视频信息,视觉语言模型(VLM)不断突破能力边界。然而,有一种看似简单却极具挑战性的视觉对象,至今仍让许多先进模型频频「翻车」——图表(Chart)。
封面图

剑桥大学等提出面向对地观测任务的像素级基础模型,在多项任务中精度达 SOTA

6 月 10 日
阅读 4 分钟
600
对地观测卫星能大范围、长周期监测地球,已成为农业生产、森林管护、生态监测、国土治理等领域的关键工具。利用卫星获取的长时序遥感数据,研究人员可以追踪地表动态变化。但真实的卫星观测数据远非完美:云层遮挡、轨道重访周期不规则、传感器分辨率不匹配、设备噪声等干扰,导致原始数据残缺、异构、无序,难以直接用...
封面图

在线教程丨 16GB 笔记本跑出接近 26B MoE 性能,Gemma 4 12B 基于创新架构统一处理文本/图像/声音三种模态

6 月 10 日
阅读 3 分钟
595
近日,Google DeepMind 正式发布 Gemma 4 家族最新成员——Gemma 4 12B 。这是一款仅有 120 亿参数的统一多模态模型,却在多项基准测试中展现出接近 260 亿参数混合专家(MoE)模型的性能。官方数据显示,Gemma 4 12B 在推理、代码生成以及多模态理解等任务上的表现已逼近 Gemma 4 26B,同时在部分视觉理解和 Agent 任务中...
封面图

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化,AIME 准确率达 97%;无需架构修改,VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

6 月 8 日
阅读 5 分钟
697
人工智能的进步不仅依赖于单一模型的突破,更在于如何构建能够持续自我提升的系统。为此,微软 AI 团队将模型开发视为一个系统级优化问题,提出了一种旨在实现快速且持续性能提升的「爬山机器 (hill-climbing machine) 框架」,并基于此从零开始训练了总参数 1T 、激活参数 35B 的 MoE 推理模型 MAI-Thinking-1 。
封面图

深度估计准确率冲上 0.9,Meta 提出 VLM³,论证视觉模型天生会学 3D,以 Qwen3-VL-4B 为基础实现多任务的统一建模

6 月 8 日
阅读 4 分钟
636
三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力,其目标是从二维图像中恢复真实世界的空间结构、尺度信息与几何关系。与图像分类、目标检测等二维视觉任务相比,三维感知不仅要求语义理解能力,还需要精确的空间推理与几何建模,因此长期以来被视为计算机视觉领域最具挑战性的研究方向之一。
封面图

MiniCPM5-1B 采用 RL+OPD 训练,多项复杂任务达 SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench 发布

6 月 5 日
阅读 4 分钟
776
MiniCPM5-1B 是由 OpenBMB 开源的一款专为端侧部署和资源受限场景设计的 10 亿参数级语言模型,也是 MiniCPM5 系列的首款模型。该模型基于标准 Llama 架构,引入了包含 <think> 标签的混合推理范式。此外,该模型借助先进的 RL+OPD 训练工艺,在大幅提升核心性能的同时有效消除了输出冗余。其原生支持 131K 超长上...
封面图

基于 220 种海洋细菌,科学家用基因组尺度模型重构异养微生物分类体系,挖出 8 类代谢菌群

6 月 5 日
阅读 5 分钟
886
森林被誉为地球之肺,海洋则是地球之心。广袤大洋中数以万计的微生物组成复杂群落,依靠各自独特的代谢分工调控有机质转化,驱动碳固定与碳释放过程,深刻左右全球碳循环、气候变化与海洋生物多样性。其中,海洋异养微生物犹如海洋生态系统中的「净化单元」,承担着有机质降解的核心功能,从而维系全球物质循环与生态平衡。
封面图

Free CPU 教程丨西湖大学张岳团队开源科研插图神器 AutoFigure,可精准理解长篇科学文本

6 月 3 日
阅读 3 分钟
989
在科研论文中,一张优秀的示意图往往胜过数百字的文字描述。无论是深度学习模型架构、生物学机制流程,还是复杂的实验设计与技术路线图,科研插图都是帮助读者快速理解核心思想的重要载体。
封面图

在线教程丨英伟达开源 LocateAnything,3B 模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR 文本定位等功能

6 月 2 日
阅读 3 分钟
1.5k
随着视觉语言模型(VLM)持续向 Agent 、多模态交互和现实世界任务演进,「看懂图片」已经不再是终点,更重要的是「准确找到目标在哪里」。无论是开放词汇目标检测、 GUI Agent 的界面操作、文档理解,还是机器人与自动驾驶系统中的环境感知,都对视觉定位(Visual Grounding)能力提出了越来越高的要求。
封面图

研发周期缩短 70% 以上!新加坡国立大学提出 AI-计算化学协同流程,加速糖尿病创面愈合药物重定位研发

6 月 2 日
阅读 5 分钟
1k
在当前临床诊疗中,糖尿病创面尤其是糖尿病足溃疡(DFU)的救治依旧是一项「久攻不破」的难题。长期居高不下的血糖致使患者创面迁延不愈,严重者甚至可能面临截肢风险。与此形成显著对比的是,靶向治疗此类病变的纳米药物研发工作却是困难重重:面对数量庞大的候选药物分子与创面愈合过程中蛋白质间繁杂的互相作用,传统...
封面图

Free CPU 在线教程 | Hermes Agent 学会长期记忆?记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

6 月 1 日
阅读 5 分钟
985
过去一年,AI Agent 的发展速度远超预期。从能够理解自然语言的聊天机器人,到能够自主调用工具、执行复杂任务的智能代理,大语言模型正逐渐摆脱「问一句答一句」的被动交互模式,开始向真正意义上的数字员工演进。然而,当 Agent 被投入到真实工作场景后,一个关键瓶颈也迅速浮现:它们往往缺乏持续记忆与经验积累能力。
封面图

字节开源 Lance,3B 模型包揽理解/生成/编辑;新加坡国立大学提出 ViMU 数据集:涵盖 588 个视频与无提示问答

5 月 29 日
阅读 4 分钟
1.1k
Lance 是字节跳动于 2026 年发布的原生统一多模态模型,采用 3B 活动参数设计,可在单一框架内同时完成图像与视频的理解、生成和编辑。该模型通过统一多模态表示与多任务协同训练,实现文本、图像和视频任务之间的能力共享。其核心采用双流混合专家(MoE)架构与模态感知旋转位置编码(MaPE),在共享的交错多模态序列上...
封面图

论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

5 月 28 日
阅读 4 分钟
1.1k
纵观当前强化学习领域的发展,无论是提升长链路推理中的信用分配能力,增强模型在复杂环境中的自主探索,还是构建具备长期规划与反馈学习能力的智能体系统,其核心目标都指向同一个方向——突破稀疏奖励与静态监督的限制,赋予模型通过交互持续学习与自我进化的能力。
封面图

自主生成新型材料,科学家基于贝叶斯优化框架实现含镓材料反向设计,优化结果具有 100% 独特性和新颖性

5 月 27 日
阅读 5 分钟
1.1k
在现代半导体产业中,材料性能的边界正在被不断推向更高维度。从高效光伏器件到高亮度发光二极管(LED),再到高频通信与量子信息系统,几乎所有关键技术的底层,都依赖于一种核心能力——对材料电子结构的精确调控,尤其是对带隙(band gap)的精准设计。然而,这一目标在传统材料科学体系中长期难以实现。
封面图

30 分钟整合 550 篇文献,生物学多智能体 Robin 跑通自主科研闭环,挖掘 dAMD 候选疗法

5 月 26 日
阅读 5 分钟
1.1k
随着生物检测、扰动实验与计算建模技术不断成熟,生命科学研究的精度与规模正在迅速提升。然而,与高速增长的数据生产能力相比,科研体系在知识整合与科学推理层面的智能化能力却明显滞后。海量有效信息分散在论文、数据库与实验结果之中,依赖人工梳理不仅效率低,也难以跨领域关联已有结论,导致许多已经被验证的发现...
封面图

零代码自主发现科学图像处理算法,美阿贡国家实验室提出 CVEvolve,具备写代码/结果自查/策略优化等全栈能力

5 月 25 日
阅读 5 分钟
1.2k
一项客观严谨的科学结论的得出,犹如沙海淘金一般困难。尤其在大量先进科学仪器与模拟仿真技术全面普及的当下,科研产出的数据体量庞大、结构松散且高度非结构化,科研数据处理的过程恰似披沙拣金,已然成为解锁数据价值、揭示科研真相前最关键、最核心的一环。
封面图

全新生图模型 Anima V1 发布:专注动漫风格的图像生成;MemLens 多模态长程记忆评估数据集:涵盖跨会话图文推理与知识更新机制

5 月 22 日
阅读 4 分钟
1.6k
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型,专为角色立绘、插画等二次元视觉创作打造。通过文本 Prompt 描述人物细节与光影,即可快速输出精美图像。借助项目集成的 Gradio 交互界面,开发者可以告别繁琐的纯脚本调用,直接在浏览器中调节尺寸、采样步数、 CFG 等关键参数,更完美地适配角色...
封面图

谷歌全球洪水预报系统最新升级,v2 版本可靠预报时长延长 6 天,精度全面提升

5 月 21 日
阅读 5 分钟
1.5k
洪水是全球影响最广、危害最深的自然灾害之一。河流径流能否被准确预测、洪水预警能否及时发布,直接关系到流域防灾减灾能力、生态安全以及社会经济运行的稳定性。也正因如此,水文学长期以来始终将「如何更准确地预测洪水」视为核心问题之一。
封面图

Free CPU 教程丨狂揽 8.8k stars,TTS 模型 Supertonic-3 参数规模仅约 99M,支持 31 种语言

5 月 20 日
阅读 3 分钟
1.6k
在生成式 AI 持续向多模态方向演进的背景下,TTS 正在从「云端能力」逐渐转向「本地能力」。过去,高质量 TTS 系统往往依赖大型模型、云端推理和复杂部署流程,这虽然能够提供自然的语音效果,却也带来了延迟、成本与隐私方面的问题。尤其是在移动设备、浏览器、边缘硬件等场景中,如何以更低资源消耗实现实时、高质量、...
封面图

小样本生物医学研究新突破,德国团队基于生成式 AI 模型实现数据增强,或减少 30-50% 实验动物用量

5 月 19 日
阅读 4 分钟
1.5k
动物实验中验证的「有效疗效」,进入临床阶段后却屡屡难以复现,样本量不足是核心根源之一。受伦理规范、实验成本与研究条件的多重限制,生物医学临床前研究往往难以开展大样本动物实验,这直接导致统计检验效力不足,研究者既无法稳定提取真实的生物学信号,又极易陷入假阳性结果的陷阱,严重阻碍基础研究向临床应用的...
封面图

速度提升 252 倍,斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

5 月 18 日
阅读 4 分钟
1.5k
二阶非线性光学是非线性光学里最重要、应用最广泛的核心分支,主要研究强激光与无中心反演对称的特殊光学晶体相互作用时,由二阶非线性极化率 χ⁽²⁾ 主导的光学效应。简单来说,当高强度激光射入这类晶体,光子会发生「能量合并和频率重组」,直接产生全新频率、全新颜色的光束,实现倍频(Second-harmonic generation,S...
封面图