谷歌发布了一篇论文,解释了为什么ChatGPT、Gemini等都存在相同的问题:无法在训练后继续学习。
>他们提出的解决方案非常巧妙:🧵

开始阅读之前,记得点赞、转发或收藏
本Threads内容由人机协同内容引擎发布
https://xaicreator.com
问题在于:所有大型语言模型(LLM)都存在“数字失忆症”。它们可以访问即时信息(你当前的对话)和遥远的过去(它们的预训练数据),但无法将任何新信息整合到长期记忆中。
研究人员观察了人脑如何解决这个问题,并找到了关键:大脑同时在多个时间尺度上处理信息。这不仅仅是层级的“深度”,而是以不同速度更新的频率。
一个颠覆性的发现:我们所说的“深度学习”只是一个维度(堆叠层级)。还存在另一个我们忽略的正交维度:以不同速度运行的嵌套优化层级。真正的学习需要这两个维度。
想象一下你的大脑是一栋建筑物。到目前为止,人工智能只是在建造更高的建筑物(更多的楼层/层级)。但实际上还存在另一个维度:时间。有些楼层每天更新,有些每月更新,有些每年更新。这两个维度都是必需的。
他们通过研究神经网络的运作方式,发现了一个惊人的事实:“优化器”(训练模型的工具)实际上也是记忆模型。
这样想:当你训练一个人工智能时,你认为你只做了一件事。但实际上,你正在运行多个嵌套的学习过程,就像俄罗斯套娃一样,每个过程都以自己的速度运行。我们只是到现在才看到这一点。
这听起来很复杂,但解释了为什么大型语言模型无法在训练后继续学习:它们具有超快的记忆(对话)和冻结的记忆(预训练中学到的知识)。但它们缺少中间的整个频谱——那些逐渐巩固的记忆。
他们提出的解决方案:“嵌套学习”。与其只有快速记忆和慢速记忆,不如创建一个连续的记忆频谱。就像大脑一样:你记得你早餐吃了什么(快速),你上个月做了什么(中等),你的童年(慢速)。这是一个梯度记忆曲线,而不是一个是否记住的开关。
他们创建了HOPE:一个具有这种频谱记忆系统的模型。最疯狂的是:它学会了在运行过程中修改自己。不仅仅是“更好地记住”,而是它学会了应该如何进行有效学习。
这个结果具有不同凡响的意义:
>几十年来,我们构建人工智能时只考虑“更多知识层级,更大记忆规模”。
>这篇论文说:“我们忽略了另一个完整的维度:时间和更新频率。”
如果它有效,这将改变:
>• 模型可以不断从你的对话中学习,而不会忘记
>• 人工智能在使用过程中会不断改进,而不仅仅是在发布之前
>• 一种新的设计思维方式:不仅要考虑规模,还要考虑时间尺度
因为是谷歌,我相信它会成功。
论文链接:https://abehrouz.github.io/files/NL.pdf
>谷歌官方博客介绍:https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
该推文转载自:
>https://x.com/AlanDaitch/status/1992688579626369303?s=20
Btw,之前Deepseek利用图片来压缩记忆,其实也是注意到了记忆的时效性问题,感兴趣的朋友可以去看看赛博禅心的微信公众号,通俗易懂的讲解了如何利用图片来进行记忆的时效化压缩存储
最后,感谢你花时间阅读了这篇推文!
关注@Yangyixxxx ,分享AI信息,商业洞察与增长实战
如果你喜欢这篇内容,也请点赞并转发第一条推文,把有价值的内容分享给更多人~