Anthropic 模型可解释团队的研究员录了一期播客
介绍了模型的可解释性和模型安全的的关系,以及两者为何重要
其中可解释性的研究流程和一些我们常见的模型概念解释比较有意思 https://t.co/8WVoSqkQK9

可解释工具链的核心目标是绘制一张从「输入提示 A」到「输出文本 B」的完整“思维流程图(flowchart)”。
研究流程主要分为五步:
数据采样:向模型投喂多样化提示(对话、代码、诗歌等),记录每一层激活。
特征分解:利用聚类、稀疏编码将上亿维激活压缩成可人类理解的「概念向量」。
概念标注:通过统计「何时点亮」的方法,为向量贴上“咖啡”“Golden Gate Bridge”“拍马屁式赞美”等标签。
因果干预:人为增减激活强度,观察输出如何改变,以验证标签的因果性而非仅是相关性。
流程可视化:把多层概念依时间顺序连线,形成人读得懂的步骤图,类似可追踪代码调用栈。
团队将该系统比喻为“显微镜”,但也坦言显微镜 still 有极限:目前只能解释约 20% 的决策路径;大模型(Claude 4 级别)的规模更让工具疲于奔命。
视频里面列举了多条令人会心一笑的内部概念:
“拍马屁式赞美(sycophantic praise)”:只要上下文出现过度恭维,某一簇神经元就高亮,驱动输出“绝妙”“天才”等华丽辞藻。
Golden Gate Bridge 表征:无论输入是描述驾驶跨桥场景的文字,还是桥的图片标注,甚至仅 “金门(Golden Gate)”的暗示,该向量皆被触发,说明模型形成了跨模态、抽象且稳健的“地标”概念。
“6 + 9” 加法电路:凡遇到以 6 结尾与 9 结尾数字相加,无论在算式、参考文献年份 (1959+6)、还是故事情节中的门牌号相加,都会走进同一条计算通路,证实模型使用的是“通用算子”而非死记硬背。
Bug Tracker:当阅读代码时,特定神经簇负责标记潜在错误并在后续回答中引用,显示出“延迟呼应”能力。
这些案例共同反驳了“模型只是训练数据记忆库”的观点:若仅靠记忆,模型不可能在从未见过的跨域场景中复用同一逻辑通路。
研究员进一步发现,模型在处理长篇故事人物关系时,会给首位出现的角色分配“编号概念”,其后所有动作、情绪均与该编号绑定,从而维持叙事一致性;此策略与人类“变量绑定”高度相似,却是自发涌现。
重要的是,“惊奇概念”的背后揭示了“抽象梯度”:越大的模型,跨语言、跨任务共享的内部语义层越集中,最终形成“通用语义空间”,这解释了为何 Claude 能在多语言中保持一致表现。