OpenAI 于周四发布了其新的 o1 模型,让 ChatGPT 用户首次有机会尝试在回答之前先停下来“思考”的 AI 模型。OpenAI 内部代号为“Strawberry”的这些模型引起了很多炒作。但 Strawberry 是否名副其实呢?
与 GPT-4o 相比,o1 模型感觉像是前进了一步又退了两步。OpenAI o1 擅长推理和回答复杂问题,但该模型的使用成本大约是 GPT-4o 的四倍。OpenAI 的最新模型缺乏 GPT-4o 所具有的工具、多模态能力和速度。事实上,OpenAI 甚至在其帮助页面上承认“ GPT-4o 仍然是大多数提示的最佳选择”,并在其他地方指出 o1 在较简单的任务上表现不佳。
“这令人印象深刻,但我认为改进并不十分显著,”研究人工智能模型的纽约大学教授拉维德·施瓦茨·齐夫 (Ravid Shwartz Ziv) 表示。“它在某些问题上表现更好,但并没有实现全面的改进。”
出于所有这些原因,重要的是只将 o1 用于它真正设计用于解决的问题:大问题。需要明确的是,大多数人今天没有使用生成式人工智能来回答这类问题,主要是因为今天的人工智能模型在这方面不太擅长。然而,o1 是朝着这个方向迈出的尝试性的一步。
思考大创意
OpenAI o1 的独特之处在于它在回答之前会“思考”,将大问题分解成小步骤,并尝试确定其中哪个步骤正确或错误。这种“多步骤推理”并不完全是新方法(研究人员多年来一直提出这种方法,You.com 也将其用于复杂查询),但直到最近才开始实用。
“人工智能社区里有很多令人兴奋的事情,”Workera 首席执行官兼斯坦福大学兼职讲师 Kian Katanforoosh 在接受采访时表示,他教授机器学习课程。“如果你能训练一种强化学习算法,并结合 OpenAI 的一些语言模型技术,那么从技术上讲,你可以创建循序渐进的思维,并让人工智能模型从你试图解决的大想法中逆向而行。”
OpenAI o1 的价格也非常昂贵。在大多数模型中,您需要为输入代币和输出代币付费。但是,o1 增加了一个隐藏的过程(模型将大问题分解成小步骤),这增加了大量您从未完全看到的计算。OpenAI 隐藏了这个过程的一些细节以保持其竞争优势。话虽如此,您仍然需要以“推理代币”的形式为这些代币付费。这进一步强调了为什么您需要谨慎使用 OpenAI o1,这样您就不会因为询问内华达州首府在哪里而被收取大量代币费用。
不过,AI 模型能够帮助你“从大想法中逆向而行”,这个想法很强大。在实践中,该模型在这方面做得相当好。
举个例子,我让 ChatGPT o1 preview 帮我的家人策划感恩节大餐,这项任务如果能运用一点公正的逻辑和推理,就会事半功倍。具体来说,我想弄清楚两个烤箱是否足以为 11 个人烹制感恩节大餐,并想讨论一下我们是否应该考虑租用 Airbnb 来使用第三个烤箱。
经过 12 秒的“思考”,ChatGPT 给我写了一份 750 多字的回复,最终告诉我,只要经过仔细的策划,两个烤箱就足够了,这样我的家人就可以节省开支,有更多的时间在一起。但它为我分解了每一步的思考,并解释了它是如何考虑所有这些外部因素的,包括成本、家庭时间和烤箱管理。
ChatGPT o1 预览告诉我如何在举办活动的房子中优先安排烤箱空间,这很聪明。奇怪的是,它建议我考虑租用便携式烤箱一天。话虽如此,该模型的表现比 GPT-4o 好得多,后者需要多次询问我到底要带什么菜,然后给了我一些我认为不太有用的基本建议。
询问感恩节晚餐可能看起来很傻,但你可以看到这个工具如何有助于分解复杂的任务。
我还请 o1 帮我规划一天繁忙的工作,包括往返机场、多个地点的面对面会议和办公室。它给了我一份非常详细的计划,但可能有点太多了。有时,所有额外的步骤可能会让人有点不知所措。
对于一个简单的问题,o1 做得太多了——它不知道什么时候该停止过度思考。我问你在美国哪里可以找到雪松树,它给出了 800 多个字的回答,概述了该国雪松树的每一种变种,包括它们的学名。出于某种原因,它甚至不得不在某个时候咨询 OpenAI 的政策。GPT-4o 在回答这个问题上做得更好,给了我大约三句话来解释你可以在全国各地找到这种树。
降低预期
从某种程度上来说,Strawberry 永远无法达到人们的预期。关于 OpenAI 推理模型的报道可以追溯到 2023 年 11 月,当时每个人都在寻找 OpenAI 董事会为何罢免 Sam Altman 的答案。这在人工智能界引发了谣言,一些人猜测 Strawberry 是 AGI 的一种形式,即 OpenAI 渴望最终创造的人工智能的开明版本。
Altman确认 o1 不是AGI,以消除任何疑虑,但这并不意味着您在使用后会感到困惑。这位首席执行官还降低了对此次发布的预期,他在推特上表示:“o1 仍然有缺陷,仍然有局限性,而且第一次使用时的感觉仍然比花更多时间使用后的感觉更令人印象深刻。”
人工智能领域的其他领域正在接受一个不如预期那么令人兴奋的发布。
人工智能初创公司 ReWorkd 的研究工程师 Rohan Pandey 表示:“这种炒作有点超出了 OpenAI 的控制范围。”该公司利用 OpenAI 的模型构建了网络爬虫。
他希望 o1 的推理能力足以解决 GPT-4 所欠缺的一系列小众复杂问题。业内大多数人可能都是这样看待 o1 的,但并不完全是 GPT-4 为行业带来的革命性进步。
“每个人都在等待功能的阶梯式变化,目前还不清楚这是否代表了这一点。我认为就这么简单,”Brightwave 首席执行官 Mike Conover 在接受采访时表示,他曾共同创建了 Databricks 的 AI 模型 Dolly。
这里的价值是多少?
谷歌前员工、风险投资公司 S32 首席执行官安迪·哈里森指出,谷歌在 2016 年使用类似技术创建了 AlphaGo,这是第一个击败围棋世界冠军的人工智能系统。AlphaGo 通过无数次与自己对弈进行训练,基本上是自学,直到达到超人的能力。
他指出,这引发了人工智能领域的一场古老争论。
“第一阵营认为,你可以通过这种代理过程实现工作流程的自动化。第二阵营认为,如果你拥有通用智能和推理能力,你就不需要工作流程了,就像人类一样,人工智能只需要做出判断,”哈里森在接受采访时表示。
哈里森表示,他属于第一阵营,而第二阵营则要求你相信人工智能能够做出正确的决定。他认为我们还没有达到那个程度。
然而,其他人认为 o1 并不是一个决策者,而更像是一个质疑你在重大决策上的想法的工具。
Workera 首席执行官 Katanforoosh 举了一个例子,他要面试一位数据科学家,希望他能来公司工作。他告诉 OpenAI o1,他只有 30 分钟的时间,想评估一定数量的技能。他可以利用人工智能模型进行逆向分析,以了解他的想法是否正确,而 o1 也会了解时间限制等等。
问题是,这个有用的工具是否值得这么高的价格。随着人工智能模型的价格不断下降,o1 是我们长期以来看到的第一批价格上涨的人工智能模型之一。