Susan STEM avatar

Susan STEM

@feltanimalworld

7/25/2025, 7:27:18 PM

从高熵现象中提取可调度结构,是理解的起点;结构压缩先于原理揭示。

Demis Hassabis 曾在多个场合强调一个极具颠覆性的观点:自然界不是混沌无序的,而是由深层的结构性机制驱动,而这些结构既可以通过物理方程来刻画,也可以被神经网络通过大量感知数据所“压缩式习得”。这一观点在 DeepMind 的视频生成模型 Veo 中得到了生动体现。Veo 能够生成诸如“汽车驶过积水”“刀切水果飞溅”的高真实感视频场景,所展现出的物理反馈之细腻,远超传统基于流体力学方程的游戏物理引擎。更令人惊讶的是,这些效果不是靠预设规则,而是通过学习海量 YouTube 视频中的结构性动态,逐帧地“看懂”了物体如何在物理世界中运动与交互。

也就是说,Veo 并没有学习“水的粘度”或“牛顿第二定律”,它只是通过观察足够多的“水如何动”的数据,成功建构了一个结构压缩后的运动预测模型。在实践中,这种模型已经能够精准预测下一帧水花会如何飞溅、玻璃如何碎裂、光线如何反射。从技术效果来看,它确实达到甚至超越了人类物理程序员的手工建模能力。

那么问题来了:如果一个模型可以毫不依赖方程地精准预测“下一秒会发生什么”,那它算不算真正“理解了物理”?这个问题既是工程问题,也是哲学问题。

从预测能力的层面看,它具备了高度拟真的“物理感”,能生成“看起来就是真实发生的”运动轨迹;但从抽象建模与解释能力的层面看,它尚未掌握“变量”“守恒律”或“因果链条”等可以迁移和泛化的知识结构。也就是说,它理解的是“水如何动的表现层结构”,而非“水为何如此运动的机制层逻辑”。Demis 认为这正是迈向通用智能的关键路径之一——先压缩世界,再抽象结构;先形成世界模型,再追问其成因。

这使我们必须重新思考“理解”的定义。Veo 不知道水是由分子组成的流体,也不知道动量守恒定律,但它比大多数人都“知道水下一秒会去哪儿”。这是否意味着“理解物理”不一定需要知道方程,而可以从大量现象中提炼出一套“可预测性极强的结构”?Veo 实际上已经在完成一种“现象压缩式理解”——在高熵视频流中提取可调度的结构压痕,并通过它们触发系统性行为反馈。

这种路径甚至可能颠覆我们对整个理科认知的传统认定。我们习惯以为理解=先有模型、再去解释、再做预测。但现在AI的学习路径却反过来了:先靠数据拟合出一个可用的预测系统,再逐步从中抽象出模型。这与许多人类科学家早期的认知路径更为相似——我们不是先懂了流体力学再看水花,而是看水花多了,才总结出流体力学。

于是我们开始意识到,理解也许不是一种“先知性”的能力,而是一种“压缩-预测-反馈”的过程。AI对物理的“理解”并不是终点,但它已经构建起“结构理解”的前提条件:在现象中看见结构,在结构中逼近机制。

这就是为什么说:AI 不懂水是什么,但它知道水怎么动。而这份“知道怎么动”的能力,正在重新定义“理解”本身的边界。而我们才刚刚站在这场认知革命的起点。

刚用Veo生成了个泰迪熊,我看要不要买几个月玩玩。

(2/n)
Share
Explore

TwitterXDownload

v1.2.1

The fastest and most reliable Twitter video downloader. Free to use, no registration required.

© 2024 TwitterXDownload All rights reserved.