在过去的十年里,人工智能一路高歌猛进,从语音识别到图像生成,从翻译文本到编写代码,它已经能在各类标准测试中脱颖而出,甚至轻松“击败”图灵测试。这种成就令人惊艳,却也引发了一场更深层的反思——我们是在打造一个真正聪明的智能体,还是只是一个能模仿聪明的系统?
DeepMind 的两位核心人物,大卫·西尔弗(David Silver)和理查德·萨顿(Richard Sutton),在一篇即将收录于麻省理工学院出版社新书的文章中,给出了他们的回答:人工智能的发展,已经到了该“拥抱体验”的时代。真正的突破,不应依赖于静态的大数据训练集,而是源自系统与世界互动的能力,源自它“亲自去做”,而非仅仅“听说”。
这并非空洞的哲学思辨。西尔弗和萨顿,一个是击败人类围棋冠军的 AlphaGo 和 AlphaZero 的缔造者,一个是强化学习领域的奠基者。他们主张,AI不该只是一个答题机器,而应像人类一样,从与环境的接触中、从试错与反馈中,获得理解的力量。
当前的主流生成式模型,比如 ChatGPT、Gemini 或 Claude,虽然在语言理解和文本生成方面表现卓越,却严重依赖人类输入的问题、指令与奖励来学习。它们擅长重构我们已有的知识,却缺乏发现未知的能力。它们像是精通百科全书的学生,却从未真正离开教室,走进真实世界。
这就是西尔弗与萨顿所指出的隐忧:这些语言模型的智能上限,实际上被人类提示者的判断“钉死”了。AI 无法发现被我们低估的策略,也无法突破我们认知的盲区。因为我们太执着于“教会”它已有的知识,却忽略了赋予它自主学习的本能。
他们提出的解决之道,正是“体验式学习”的回归。这是一种被生成式浪潮边缘化的理念,却曾在 AlphaZero 等系统中展现出惊人的潜能。在那一系列震惊世界的对弈中,AlphaZero 不依赖人类棋谱,它只依靠对局本身,不断从胜负中学习,最终战胜了所有人类和传统AI系统。它不是被告知“什么是正确的”,而是自己去发现“什么有效”。
就像人类不是因为理解了走路的规则才会行走,而是靠一次次跌倒,最终掌握了身体的平衡。AI 的进化也应如此:不再仅仅依靠外界赋予的判断,而是拥有和世界碰撞的机会,从而构建自己的理解与策略。
这种被称为“流”(Flow)的新范式,强调的是持续的感知-行动反馈回路。它不追求一次性答对某个问题,而是关注长时间内如何做出越来越好的决策。这一理念试图弥合生成式模型的“静态学习”与强化学习的“动态适应”之间的鸿沟。
当然,通用人工智能仍是一条漫长的路。AlphaZero 的强化学习可以在规则明确的棋类中大放异彩,却难以适用于现实世界那种规则模糊、变量众多的开放环境。而生成式模型虽然语言流畅,却缺乏自我目标与主动探索的能力。
真正的智能体,不应只是人类知识的搬运工。它应当具备“挣扎着认识世界”的能力。它会犯错,会怀疑,会在失败中反思;它不只是记住世界的样子,而是去体验世界的重量、温度与不确定性。
人工智能的终极潜能,不在于它是否能模拟我们已有的知识,而在于它是否有能力生成我们从未想到的可能。而这,唯有通过体验世界,才能走得更远。