传统的 AI 图像生成是“并行”的 —— 你给定一个指令,模型独立生成多个结果。而 Gemini 的方式是“串行”的 —— 生成第二张图时,模型“看到”了第一张图;生成第三张时,它“记得”前两张。这就像一个艺术家在创作系列作品,每一幅都考虑到了整体的协调性和差异性。
Gemini 团队最近在接受 Logan 采访时提到:“图像理解和图像生成就像姐妹。” 为什么模型能生成好图像?因为它理解图像。为什么它理解图像?部分因为它能生成图像。
图像和视频成为模型学习世界常识的"捷径"。通过"看",模型学习到了语言中缺失的信息;通过生成,模型验证和深化了自己的理解。这种双向强化创造了一个良性循环,这也是为什么 nano-banana🍌表现出色的原因👀
当你去朋友家做客,回来后你不会在对话中特意提到"他们有一个普通的沙发" —— 这太平常了。但如果你拍了照片,沙发就在那里。这就是所谓的”报告偏差“(reporting bias)—— 语言倾向于描述不寻常的事物,而忽略日常。
在大量图像和视频模态数据的加持下,原生多模态的 Gemini 表现出了更好的自然理解和表达,以及更接近于真实的图像生成!
下面是对 Logan 这三十分钟访谈的核心洞察:
1. “智能感”是新标准:衡量一个模型好坏的标准,除了图像质量,更重要的是它是否“聪明” —— 能否理解上下文、创造性地解读意图、甚至给出超越预期的结果;
2. 代理指标的重要性:在复杂的 AI 系统优化中,找到如“文本渲染能力”这样能够反映全局性能的关键代理指标,是实现快速、有效迭代的突破口;
3. 分解与迭代的力量:面对复杂任务,与其追求“一步到位”,不如利用 AI 的快速迭代能力,将任务分解,通过“对话”逐步完善。这是 AI 时代的核心工作方法论之一;
4. AI 的终极形态:未来的 AI 将是“美学”与“事实性”的结合体,既能成为激发灵感的创意伙伴,也能成为制作精准图表、报告的可靠生产力工具,最终目标是成为真正理解世界的 AGI✨
Behind the scenes of Google's state-of-the-art "nano-banana" image model 采访视频完整版 https://t.co/APXBCR54wk