谷歌最近的模型进展太快了,而且全面开花。
他们的开发者负责人访谈了 Deepmind CEO,里面详细介绍了:
-Genie 3 世界模型的信息
-通往 AGI 的路径
- 产品迭代方法
- 模型评估策略
干货挺多的,我总结了一下 https://t.co/DI9SUyHAJt

迈向 AGI 的路径拆分为模型、评测、工具三个相互强化的支点:
模型:在基础网络中引入显式「思考」与「世界模型」,通过多模态互补、规划搜索和自监督,对感知与推理进行一体化表征。
评测:从静态数据集转向动态、自适应、对抗性环境,让基准能随能力提升而自动升级难度,并覆盖物理直觉与安全性维度。
工具:把外部算力与专用子模型视为「延伸器官」,允许主模型在推理过程中即时调用,并通过代理调度形成系统级闭环。
这三者缺一不可:没有强模型,再复杂的评测只是「秀场」;没有合适的测评,模型无法有针对性地优化;缺少工具链则会让模型陷入「闭门造车」。这一三角形心智模型为 DeepMind 制定路线图提供了结构化的思考框架。
Genie 3 引出一种「内化现实」的方法论:
不再单纯追求图像或文字的表层相似度,而是要求模型在潜在空间建立对物理规律、材料属性、时间连续性的因果图谱。训练流程可按以下逻辑拆解:
从高保真模拟环境中收集具备物理一致性的多模态数据(视觉、深度、动作);
通过自监督损失逼迫网络同时最小化预测下一帧像素和保持对象持久性;
在推理阶段反向使用该世界模型生成新场景,验证其自洽性;
利用外部 Agent 在生成世界中完成任务,进一步采样「硬例」细化模型。
这一框架的核心心智在于:只有当 AI 能「想象」世界并用行动检验想象,才算真正理解世界。团队接下来的重点将是降低推理成本以开放给更多外部开发者,同时设计版本管理与重现机制,确保优秀关卡能被社区反复分享且状态一致 .
产品设计需要前瞻性:
与指数级底座赛跑,对创业者而言,底层模型更新速度已逼近「双周级」,传统瀑布式需求规划难以跟上。Demis 提供了如下心智模型:
以「能力预测表」替代「需求列表」:先列出未来 12 个月大模型大概率将具备的 API 与思考能力,再反推用户体验。
设计「可撤换引擎」:核心逻辑应与模型调用松耦合,后端一旦升级仅需调整提示词或调用格式。
构建「不可平替」价值层」:把精力投入模型短期内难以原生支持的环节,如高精度数据管道、合规策略或领域知识图谱。
这一思路帮助团队避免在过快迭代的基础设施上投入过深,同时让产品能够「踩准节拍」地吃到每一波模型红利。
评测即训练:
自对抗曲线的正反馈,Game Arena 体现了「让评测成为驱动器」的策略:
把模型置于互博环境,通过 Elo 或胜率即时量化实力;
任务难度随着排名自动提高,模型若要保级必须进化;
研究者可观察「拐点」位置以定位能力瓶颈,再定向优化。
如此一来,评测与训练不再割裂;模型越强,环境越苛刻,形成螺旋式上升。这不仅减轻了人工出题负担,也让能力边界持续被刷新。