对于“人工智能”未来的思考


本文总阅读量

摘录
我对大型语言模型(LLM)的未来潜力判断存在很大的不确定性,我认为你也应该如此。LLM 有可能最终导向通用人工智能(AGI),但也同样可能止步于平台期。


Pasted image 20250426191204.png

图 1:一张描绘 LLM 未来潜力的(非常科学的)示意图。

我对大型语言模型的潜在未来有着非常宽泛的不确定性(或者说,“误差范围很大”),我认为你也应该如此。具体来说,以下两种情况的发生都不会让我感到惊讶:

  1. 飞跃式发展: 在三到五年内,语言模型的能力超越人类专家,能够完成绝大多数(甚至所有?)具有经济价值的认知任务。
  2. 渐进式发展: 五年后,我们拥有的最佳模型虽然比今天的更好——成本显著降低,能力持续提升——但仍然是在“常规”轨道上发展,并没有出现颠覆世界秩序的根本性范式转移。

在我看来,否认这两种可能性中的任何一种都是错误的。(需要强调的是,我并非认为任何一种极端情况非常可能发生,我预期结果会介于两者之间,但我相信这两种可能性都值得你认真对待。)

为什么我认为这两种未来都可能发生呢?

  1. 潜力无限? 一方面,也许我们对语言模型的探索才刚刚开始。短短五年内,我们从 LLM 几乎无法写出连贯段落,发展到它们能解决早期博士生水平的数学问题,编写专家级竞赛程序员水平的代码。各种基准测试被超越的速度,甚至快过了我们创建它们的速度,而指数级增长的速度远超我们的想象——谁知道未来五年又会带来什么呢?
  2. 遭遇瓶颈? 另一方面,也许我们会继续经历一段增长期,但一两年后,LLM 的能力将达到极限。可能的原因包括:可用的训练数据耗尽、无法获得足够的算力、资金链断裂,或者像过去的 SVM(支持向量机)一样,Transformer 架构(当前主流 AI 模型的基础)本身就存在固有的能力上限。此后,LLM 或许会变得更便宜、更快,但不再延续当前的指数级增长曲线。即便如此,现有模型已经足够强大,五年后 LLM 很可能会集成到更多产品中,这本身就是一件大事,但它或许不会从根本上改变人类的未来。

根据你的背景以及最近阅读的关于“AI”语言模型的资讯,你很可能对我这两种观点中的某一种持有截然不同的看法。如果把我放到一群典型的“AI 对齐”(AI Alignment) 研究者中间,我大概会是那个对 AGI 的快速到来表示怀疑的“泼冷水者”。但如果把我放到一群普通程序员中间,我可能又成了那个认为 LLM 很有可能在短期内编程能力远超人类的“狂热分子”。

因此,在这篇文章中,我只想阐述一个观点:“你应该保持很大的不确定性(宽泛的误差范围)”。我不会试图进行深入的技术论证,因为我感觉大多数人是先决定自己想相信什么,然后再去寻找支持自己结论的证据。所以,我希望通过本文让你直观地理解,为什么我认为你应该对未来保持更开放的预期。在此基础上,你可以自由地去寻找支持你所倾向观点的技术论据。

(这是我决定系统阐述我对 AI 看法的系列文章(共 3 部分)的第 2.75 部分。在第 1 部分,我讨论了我是如何使用大型语言模型的(也就是大家通常所说的“AI”)。接着,在第 2 部分,我创建了一个简单的应用,让你预测和追踪你对未来的看法。上一篇(第 2.5 部分)我讨论了其他人对 LLM 未来的预测。因此,在这次的第 2.75 部分,我将分享我对这一切未来走向的看法。最后,在第 3 部分,我会谈谈我的担忧、不担忧之处以及我不确定的地方。)

保持谦逊

我想从谦逊谈起。重要的是要认识到,你并非一个绝对正确的未来预测者。仅仅因为你几年前相信(并公开宣称)某件事,并不意味着你必须永远坚守这个观点。

具体来说:坦然承认“我错了,我改变了看法”是完全没问题的。你看,我来示范一下。

我错了。我改变了看法。 回顾我大约在 2018 年到 2021 年间发表的演讲稿,对我而言是一次极好的谦逊教育:我显然错误地估计了大型语言模型的未来潜力。当时我完全属于“这些模型只是有趣的玩具,没有实际应用价值”的阵营。我将它们视为理论研究的对象,或许能在情感分析或翻译等特定任务上派上用场,但绝非通用技术。即使在 GPT-2、GPT-3 和 PaLM——这三个在当时具有突破性的语言模型发布之后,我依然固执己见。“哦,那个 5400 亿参数的模型能解释笑话?真可爱;等它能做点‘有用’的事再告诉我吧。”

但正如我在第一篇文章中详细讨论的,语言模型如今在我的工作中已变得极其有用。五年前,我对这些模型的未来潜力完全判断失误。我也愿意承认,未来我可能还会犯错。

当今世界变化的速度比以往任何时候都快。三十年前、十年前甚至两年前的“真理”,今天可能已不再适用。仅仅因为新颖就拒绝一个想法是很自然的反应。改变自己根深蒂固的观念会让人不适,尤其是当你曾对此深信不疑时。

但作为技术人员,我认为正是这种适应变化的能力让我们取得成功:我们理解未来可能与过去截然不同,曾经看似不可能的事情或许真的会成为现实。所以,正如我前面提到的,根据你的背景和过往认知,你可能会认为我这篇文章的观点错得离谱。也许我是错了。但也许,错的是你。

明确的界限并不存在

你应该保持很大的不确定性,原因很简单:目前 LLM 的发展路径是有效的,并且没有显示出放缓的迹象,因此它完全有可能继续奏效。但也同样可能出现意想不到的问题,某些挑战比我们预想的更难,导致整个进程受阻。下面我将更详细地讨论这一点。

能力上限难以界定

对于 LLM 未来前景最常见的质疑是这样的:是的,这些模型在进步,但它们的能力存在某种根本性的上限。这就像你想登月,可以通过建造越来越高的塔楼来接近目标,但这只能让你达到一定高度。于是你采用全新方法,制造热气球,它可以飞得比塔高得多!但依然无法到达月球。这不是实现目标的方式。最终你认识到火箭才是关键,它们能真正将你送入太空。

也许 AI 的发展也是如此。最初我们认为简单的机器学习方法就能实现 AI;著名的是,马文·明斯基在 1970 年代曾预言*“三到八年内,我们将拥有一台具有普通人智能的机器……能读莎士比亚、修汽车、玩办公室政治、讲笑话、与人争吵。”* 显然这并未成真。后来我们认为符号推理或许是正确的道路,并构建了专家系统,但也未取得突破。谁又能保证同样的事情不会发生在深度神经网络身上呢?

我过去也持有这种看法。

这个类比的问题在于,你可以援引确凿的物理定律来解释为什么塔楼和热气球无法将你送上月球。但对于 LLM,并不存在这样的物理定律。相反,我们听到的是一系列形如“我认为 LLM 无法跨越某条清晰界限,理由是……”的论断。

但这些所谓的“界限”并非自然法则,更像是我们基于过往经验做出的假设。就在六个月前,还有人在谈论 LLM 正在进入平台期,我们不会看到比 GPT-4 更强的模型。紧接着,我们就看到了通过强化学习(如 OpenAI 的 o1/o3 和 DeepSeek 的 r1)训练的模型,证明模型至少可以通过学习自身输出来实现自我改进,向前迈出一步。于是,批评者可能会说:“好吧,那条线画错了,但我现在画的这条线才是真正的极限。” 也许这次他们是对的,但也可能再次落空。

所以:如果你目前相信 LLM 的能力存在根本上限,因为存在某条它们无法逾越的界限,那不妨做个练习:现在就明确设定一条你认为代表 LLM 根本限制的具体界限。如果这条界限未来被跨越,你会愿意承认:“好吧,我错了。看来划定明确的界限并非易事。”

这大致是我在 2021 年开始做的事情,当时 LLM 的潜力开始被更多人认识到。我当时不相信 LLM 的应用前景,因为在我看来,基于“预测下一个词元(token)”的训练方式,不可能生成超过几段篇幅的连贯回应。我相当确定这种预测机制 (1) 不足以让模型建立内部世界模型,因此 (2) 其能力上限仅限于简单的统计性词元预测器。

但事实证明,LLM 的能力远超我当初的想象,它们已经突破了我过去可能划下的任何明确界限。

对我而言,现在似乎已无法划出任何清晰的界限。能力的提升更像是一个连续的、难度渐增的光谱,我认为 LLM 有潜力继续扩展(scale)。不过,我可以列举一些你可能认同的潜在界限,即使无法用物理定律证明其不可逾越,你可能仍认为它们是 LLM 的根本局限。如果你不喜欢这些,可以提出自己的界限。但我认为,持有这种“上限论”的人应该能够清晰地阐述自己的下一条界限,并在其被跨越时愿意修正自己的看法。以下是一些可能的界限,也许你相信……

……但举证责任在谁?

如果我声称可以制造一个在所有方面都比人类更强的魔法盒子,那么举证责任在我,我需要证明其可能性,而不能仅仅说“你无法证明它不可能!”。

我认为,即便是那些相信 AGI 即将到来的人,大多也会承认,从当前 LLM 的水平到完全通用的 AI 系统,还有很长的路要走。这意味着途中可能需要克服诸多挑战。谁又能保证,仅仅因为我们越过了一些小障碍,前方就没有更大的难关呢?

很多因素都可能阻碍 LLM 的持续扩展:训练数据耗尽、算力不足、达到下一性能等级所需的算力远超预期、即使技术上可行但资金断裂导致无法及时实现、当前非符号推理的 LLM 架构存在硬性能力限制、或者存在需要新架构或训练方法的软性能力限制。最近六个月我们看到强化学习训练模型是可行的,但这也许只是昙花一现的技巧,无法持续奏效。或许我们还能发现一些类似技巧,但下一个总比上一个更难找。

过去每一次技术规模化的尝试,都伴随着必须解决的新问题。早期计算机使用真空管,物理定律明确指出,不可能在每平方英寸集成百万个真空管。但晶体管的发明基本解决了这个问题。而晶体管自身也面临(或已经面临)物理极限,我们需要新的突破。

就在最近几周,我们似乎看到了增长放缓的迹象。OpenAI 最新的 GPT-4.5 模型,在几乎所有可衡量的基准上仅略优于 GPT-4。也许它在“感觉”上更好,但这无法量化。就连 OpenAI 内部人员也在技术报告中称“GPT-4.5 并非前沿模型”,似乎对其结果并不十分满意。

也许这就是未来的常态:我们花费 10 倍的资金训练模型,其服务成本也高出 10 倍,结果却只得到一个略微改进的版本。

但重要的是要认识到,不存在明确的物理定律规定情况必须如此,这与限制真空管小型化程度的物理定律是不同的。

这就是我目前的立场。我仍然倾向于相信,存在某种根本性因素会阻碍我们构建能力呈指数级增长的 LLM。但我必须坦诚,我完全不知道这个限制具体会是什么。除了“当你试图跨越多个数量级扩展某事物时,很可能会遇到意想不到的问题”这种模糊的论点外,我没有任何证据表明这条界限必然存在。

而过去人们划定的那些简单界限,至少在未来几年内,在我看来都并非根本性限制。因此,我甚至不确定举证责任应该在哪一方:或许,当有人展示了跨越六个数量级的扩展趋势,并声称还能再持续三个数量级时,反而是我需要解释为什么这个趋势是错误的?

这就解释了为什么我对未来持有很大的不确定性(宽泛的误差范围)。三年内实现 AGI?有可能。未来五年能力停滞?也有可能。

两个假想的未来

未来 1:指数增长的可能性

偶尔,我们会遇到一种特殊的技术,它能够驱动自身的进步。

也许最近最典型的例子就是摩尔定律。你制造出更好的计算机,这些计算机使你能够开发出更先进的科学和工程工具,而这些工具又反过来帮助你制造出更好的计算机。通往 3 纳米制程的最短路径,是经由 5 纳米制程实现的。如果你身处 70 年代,想直接制造 3 纳米芯片,你必须先具备制造(接近)5 纳米芯片的能力。

历史上也存在其他类似的例子。制造高精度机械需要借助(精度稍低的)现有机械。你制造的每一代机器都能让你设计出精度更高的下一代部件。精度仅为 1 厘米的机器无法直接造出精度为 1 纳米的机器;你需要用第一台机器制造第二台更精确的机器,以此类推。

也许机器学习就是这样一种技术。长期以来,一些人推测我们会达到某个“奇点”,即机器通过重写自身代码、发明新算法等方式实现自我改进。到目前为止,机器学习进步的主要驱动力是投入更多资金和算力来训练更大的模型。但是,如果我们能利用当前 LLM 的进展来直接推动下一代 LLM 的发展,那么我们可能会看到极其快速的进步。我仍然认为这种情况发生的可能性不大,但考虑到如今的 LLM 已经能够编写部分(虽然不多)用于改进自身的代码(例如,aider 的大部分代码是由 aider 自己编写的 (链接),DeepSeek 也在利用自己编写的 WASM SIMD 内核来提升性能 (链接)),我们不应完全排除这种可能性。

更进一步说,我们甚至可能不需要模型进行复杂的研发来自我改进。也许会出现这样的情况:语言模型帮助改进自身的训练数据集,从而使下一代模型变得更好。这甚至可能在模型具备编写自身代码能力之前就实现。事实上,很可能我们今天就已经处于这种状态,只是尚未意识到。近期强化学习的进展几乎就印证了这一点。

具体来说,DeepSeek r1(那个在 1 月底震惊股市的语言模型)是如何诞生的?过程大致是:让 DeepSeek v3 解决大量难题,当它答对时,就强化训练它多采用正确的处理方式,减少导致错误答案的处理方式。这个想法其实很简单,效果却出奇地好。

从某种程度上说,这不应过于令人惊讶。我们早就知道,可以通过让模型(如围棋 AI)自我对弈来训练出高质量的游戏模型,AlphaZero (链接) 就是这样诞生的。这与 DeepSeek r1 的做法在本质上差别不大。

因此,我认为未来我们拥有(远)更先进语言模型的一个非常真实的可能性是:我们利用现有模型本身来帮助构建更好的模型,无论是通过优化数据集,还是直接编写更优的代码。如果这条路走得通,那么它清晰地指向了在不远的将来出现非常先进的 LLM 的前景。

如果这是我们正在走向的未来,那么在接下来的一两年内应该会出现明确的迹象。届时如果没有研究论文或产品展示如何利用当前模型的输出来训练下一代模型,那么我对这个未来的可能性就会更加怀疑。

未来 2:平台期出现的可能性

1958 年 NASA 成立时,苏联才刚刚发射人造卫星。但短短三年后的 1961 年,NASA 就将人送入太空。到 60 年代末,更是实现了载人登月。然而,五十年过去了……我们再未重返月球。换个角度看,人类最后一次踏上月球的时间,距离第一次世界大战结束比距离今天更近。

如果你是一位生活在 1960 年代的、有远见的聪明人,看到如此惊人的发展速度,你可能会合理地推测:几年后月球上将建起人类基地,人类将登陆火星,很快就会殖民星际。你甚至可能兴奋地想象,人类的使命将是探索奇异新世界,寻找新生命与新文明,勇踏前人未至之境。因为从当时的角度看,一切似乎都朝着这个方向发展。

但站在今天的角度回望,凭借后见之明,我们就能理解为什么这一切并未发生:1958 年 NASA 成立时,其预算仅占美国联邦预算的 0.1%。在接下来的三年里,预算增加了 10 倍,随后的四年里又翻了 4 倍。
Pasted image 20250426191355.png

仅看这段时期的数据,你很容易对太空探索的未来感到无比兴奋。显然,我们会持续投入这项技术,理应继续看到过去的增长势头。有什么能阻止我们呢?

你当时不知道,也无法知道的是,仅仅五年后,政府在太空探索上的支出比例就下降了一半,并且再也没有恢复。在 1969 年至 1972 年间将 12 人送上月球后,五十年过去了,我们仍未能重现这一壮举。

……这并非说 NASA 的项目是失败的。没有卫星,现代世界的一半将无法运转。太空探索带来的发现对当今世界的贡献难以尽数。

但在 1960 年代,我们的技术实力尚不足以支撑太空探索计划的高速增长。我们取得的(惊人!)成就是通过**大规模投入(brute force)**实现的,而这种方式的潜力终究有限。

更重要的是,载人登月本身并不直接产生经济效益,缺乏内在商业价值。因此,虽然你能说服投资者(当时的美国民众)在一段时间内为项目买单,但他们迟早会问:“我们从中获得了什么实实在在的好处?”
Pasted image 20250426191420.png

现在让我们回到语言模型。LLM 进步的关键驱动力之一,就是我们不断投入更多的资金和数据进行训练。例如,2019 年最昂贵的 LLM 训练(GPT-2)成本约为数万美元。仅仅五年后,如今最大规模的训练运行成本已高达数千万美元。LLM 是令人印象深刻的技术,但我们基本上还是在依靠大规模投入来推动。

并且已经有迹象表明,这种简单粗放的投入方式可能难以为继。前面提到的 GPT-4.5 就是一个例子,连 OpenAI 自己也不确定其确切价值。Anthropic 公司曾公开表示可能在 2024 年底发布其最大模型 Claude 3.5 Opus,但至今仍未发布,或许是因为它不够惊艳?(请注意:我下周将加入 Anthropic,但目前尚未入职,没有任何内部信息。所以这几天我还可以随心所欲地猜测。)

当然,现在下结论还为时过早,仅凭几个数据点做推断总是有风险的。但你必须极其乐观,才会认为这种增长放缓的趋势绝对不会持续下去。

我认为导致增长停滞的一种特别可能的方式是:公司继续进行那些极其愚蠢的广告宣传,比如宣称 AI 能帮你女儿给奥运偶像写信?(真不知道谁会觉得这是个好主意??)如果公众对持续的炒作和缺乏实际利益感到厌倦,我完全可以预见投资者会失去信心,导致下一轮融资枯竭。即使这些模型本有可能带我们走向 AGI(无论那意味着什么),我们也可能因为过度炒作破坏了发展势头、无法维持增长,而很长时间内都无法得知结果。

因此,我心中的关键问题是:我们会继续采用这种大规模投入的方式来训练 LLM 吗? 如果是,那么只有在我们愿意持续投入更多资源的情况下,进步才会继续。一旦投入意愿减弱,进步也将随之停滞。这可能源于另一场经济衰退,或者投资者对无休止的炒作和缺乏实际回报感到厌烦,抑或是下一代模型未能兑现价值,让投资者对更下一代失去信心。

如果这是我们未来的走向,那么我预计在未来几年内会看到扩展瓶颈和收益递减的现象。更多像 GPT-4.5 这样的模型被发布,它们只是渐进式改进,并且后续训练(如强化学习)带来的提升相较于其前代模型并不显著。资金方面,也许未来一两年融资会枯竭。目前 OpenAI、Anthropic 等公司的融资规模在数十亿至数百亿美元级别。下一轮融资将需要数百亿至数千亿美元。无论 LLM 是否持续展现巨大进步,我预计这些融资仍会发生。但我认为,如果没有对社会产生清晰、显而易见的益处(以及为投资者带来实实在在的回报),我们不可能看到数千亿乃至万亿美元级别的资金投入。

常见的质疑(我曾经也抱有怀疑)

本文旨在论证两种极端情况——AI 变得异常强大或 AI 发展停滞——都是可能的。但由于我日常接触的人大多倾向于后者,并且这曾是我自己的信念,所以我想花些时间反驳这种停滞论。

因为我感觉,一些主张 LLM 将停滞的人内心深处认为,LLM 不可能 变得(好很多)。在他们(以及过去的我)看来,当前的 LLM 存在根本性的能力限制。现在,我想尝试挑战这种信念,因为我自己也曾持有其中许多观点。

“LLM 只能执行有限计算”

许多人认为,由于机器学习模型每次输出执行的操作数有限,其能力本质上受限于那些能用有限步数解决的任务。这意味着它们无法处理多步推理,永远只能进行简单的模式匹配。

但这已不再是事实。没错,LLM 为生成每个词元(token)执行的计算是有限的。但它们并非必须在一步之内解决所有问题。如果你要求模型进行“思维链”(Chain of Thought)式的逐步思考,就可以将复杂问题分解为一系列简单的步骤。

近期的“推理”模型,如 OpenAI 的 o1/o3DeepSeek 的 r1,就是很好的例子。它们经过专门训练,能够在输出最终答案前,生成数百甚至数千词元的中间思考过程来逐步解决问题。

诚然,这些模型仍受限于同时处理的词元数量(目前约几十万),但这并非根本性限制,且这个容量已经足够大,我认为在实践中影响不大。就像你的计算机严格来说不是图灵机,因为它内存有限,无法执行无限计算一样,LLM 在技术上也非完全通用,但这种“有限容量”的论点在实践中基本无关紧要。

“LLM 无法解决新任务”

首先,我们需要明确一点:“不能”和“目前还做不到”有本质区别。

语言模型研究者们在预测“LLM 永远做不到某事”方面,记录可以说相当糟糕,往往几年后就被现实打脸。(甚至在某些情况下,提出预测时就已经有模型能做到了。)

断言 LLM 不能 解决新任务,是一个非常大胆的说法。即使我们假设 LLM 永远无法解决训练数据中未明确包含的任务,仍然存在海量的创新研究思路,仅仅是将两个不同领域的现有想法结合起来。

以我自己的研究为例。我近期一些有趣的工作,基本上就是问:“如果把密码分析的技术应用于语言模型会怎样?”或者“如果从网络安全的角度考虑训练数据管理会怎样?”这些论文本身并非石破天惊,所用数学也不特别难。关键在于需要对相关文献有相当广泛的了解——而这恰恰是当前模型已经相当擅长的。

“看这模型连这么简单的题都搞错,太蠢了,哈哈哈”

这种论调尤其令人沮丧。时不时有人发推或写博客,展示某个模型无法完成诸如“数出‘strawberry’中有几个‘r’”的任务,或者认为数学表达式 9.11 > 9.7 为真。但我们永远不应基于某人(或某物)最糟糕的表现来评价它。我不会抱怨我的计算器当锤子不好用,也不会用烙铁烤面包。同理,当有明显更合适的工具时,你不应该强求 LLM。

另外,我始终难以理解,我们是如何从“哇!模型居然能识别鸟类了!”的惊叹,转变为“哈哈,这模型真笨,看我随便想个它做不了的任务!”的嘲讽。

过去,模型能完成我们专门设定的任务就足以让我们惊叹;如今,模型无法解决我们甚至从未训练过的任务,反而令我们失望。更有意义的批评应该是,提出一系列你认为任何模型都无法解决、但对人类而言很简单的任务。然而不幸的是,过去每次有人这样做,往往只需等待几个月,就会有新的模型出现并攻克这些任务。

如果你自认找到了一个未来的模型也无法轻易解决、但人类觉得轻而易举的简单任务,我非常乐意与你合写一篇论文。你列出这组你确信近期模型无法解决的问题,然后我们等待一两年,看看结果如何。我猜测(大约 70% 的概率)LLM 会胜出,但我很乐意被证明是错的,并且确实认为另一种结果完全可能。(这正是本文的核心观点!)

“它根本不‘理解’!”

我们会问世界上最好的国际象棋引擎 Stockfish 是否“理解”国际象棋吗?不,我们不会。Stockfish 是否“理解”国际象棋根本不重要;重要的是它能否下出超越所有人类(无论在世或已故)的水平。对此,我们有充分证据证明它可以。既然如此,我们何必关心它是否“理解”呢?

同理,我认为我们不必过分纠结于当今的模型是否“理解”语言。首先,“理解”这个概念本身就难以明确定义(到底什么才算“理解”语言?)。其次,无论它们是否理解,这与评估它们的实用价值无关。重要的是它们能否完成有用的任务。

或许你审视这些模型后,仍然觉得它们表现平平,因此断定它们显然不具备“理解”能力。如果你像我过去一样持有这种观点,我鼓励你暂停片刻,思考一下:能够打动你的最低限度的演示(minimum demo)是什么? 重要的是“最低限度”。能解决 P=NP 问题的模型显然会让所有人惊叹,但难道就没有比这要求低一些、却依然能让你印象深刻的演示吗?请把这个标准写下来。一两年后,再回头看看:我们解决你提出的问题了吗?

机器学习的历史上,充满了断言 LLM 永远无法解决某个问题、结果几个月后就被新模型轻松解决的例子。所以我建议你也试试这个方法:什么样的最低限度的演示能够让你相信模型具备一定程度的理解?

(当然,你可能会指出,依赖我们不理解其工作原理的模型来执行任务是非常危险的。我完全同意!这极其危险,正是我整个研究议程的核心关切。下一篇文章我会详细讨论这一点。但是,“那个东西可能有危险”并不能反驳“那个东西在许多场景下可能变得非常强大”的论断。)

“但它们数据利用效率太低了!”

语言模型需要基于海量数据进行训练才能变得有用,比人类学习同类任务所需的数据多出几个数量级。这是事实。

但这为什么是决定性因素呢?有相当可靠的证据表明,虽然我们未来可能耗尽训练数据,但这在未来几年内不太可能发生。(请记住,本文讨论的范围仅限于未来几年。)所以,诚然,如果 LLM 学习新任务不需要那么多数据会更好,但这并非一个根本性限制,不会阻止它们在未来几年内能力持续提升。

如果我们能构建出只需少量样本就能学习的模型,那自然是极好的。但我认为,数据效率低下并非根本性障碍,不会阻止我们在未来几年内达到非常高的能力水平。

“它们达不到‘人类水平’!”

计算机能达到“人类水平”吗?仅仅定义这个概念就几乎不可能:在哪方面达到人类水平?下棋?像人类那样下,还是比人类下得更好?同情对手?我认为这个问题基本无解,对我们计算机科学家而言也不值得过多讨论。“人类水平”甚至无法在单一维度上衡量,所以,不如我们干脆别谈这个了?

我认为讨论“人类水平”尤其没有帮助,是因为回顾历史:我们曾认为下棋是人类独有的智能体现。后来我们发表论文,制造出能下棋、甚至比任何人类都强的计算机。但显然,这些下棋程序并非通用智能。

然后,我们或许又想,如果一个程序能写诗、谈论历史,那它一定具备人类水平的通用智能了吧。结果现在我们有了能写诗、谈论历史的语言模型,但它们显然仍非通用智能。

所以,与其进行哲学思辨,不如关注它们能否完成具体的有用任务。这与它们是否能被冠以“人类水平”的标签是两回事。

“但是它们会‘胡说八道’(编造事实)!”

我理解人们对模型编造信息的抱怨。理想情况下,我们当然不希望模型这样做。就连写这篇文章时,Claude 都时不时地在文中编造出拼写和语法错误。大家都同意,如果它们不胡说八道会更好。但是,这个缺点实际上并未阻止我们实际应用这些模型。你知道为什么吗?因为我们早已习惯了互联网上信息可能出错的事实!没人指望 Stack Overflow 的每个答案或 Reddit 的每个帖子都完美无误。当有人以“答案可能不正确”为由反对使用模型时,我实在无法理解,因为我们在网上读到的任何其他内容也同样可能出错!

退一步讲,假设“胡说八道”对你来说是绝对无法容忍的。那也没关系,仍然有大量的应用场景可以验证答案的正确性。这在编程领域尤其明显,也是我最关心的领域。你通常可以通过运行代码并进行测试来检验答案是否正确。如果模型编造了一个不存在的 API 或写出了有 bug 的代码,问题不大——模型(或开发者)可以运行代码、验证结果。如果因 API 不存在而失败,模型可以识别错误并尝试使用正确的 API。

这并不是说我对其中的风险毫无担忧——实际上我对此极其担忧。但本文讨论的不是广泛部署这些模型可能带来的风险,而是我们能否首先实现这种广泛部署。简单预告一下:我主要担心的是,未来模型的“胡说八道”频率会低到让公司放心地将重要决策交给它们,因为“大多数时候”都行得通。然后,突然有一天,“砰!”模型犯了个错,导致了灾难性的后果。这将非常糟糕。大约一个月后,我会专门写几千字来谈论这个问题。

结论

大型语言模型(LLM)在今天显然很有用,我相信它们明天会更强大。但我不知道这种趋势会持续多久。

换句话说:我认为,五年后我们回顾 2023-2025 年的 LLM 热潮,很有可能像今天看待 1998-2000 年的互联网泡沫一样(即:一项最终会产生深远影响的新技术,但在短期内被过度炒作)。但我也认为,同样存在一种非常真实的可能性:未来的人们会将 2020 年代中期视为一个新纪元的开端,在列举人类最伟大的发明时,会将“人工智能”与轮子、印刷术相提并论。

我希望本文成功地论证了:你应该愿意相信这两种未来都是可能的。 没有哪一种是必然的,但也没有哪一种是绝对不可能的。

再过几年,这个问题的答案就会揭晓。届时,回过头看,答案会显得如此显而易见。我们可能会说:“扩展当然又持续了五年,摩尔定律都有效,AI 的同类定律凭什么不成立?!”或者说:“指数增长总有尽头,LLM 停滞不是明摆着的吗?!”而那些当初不合理地自信、但最终蒙对了答案的一半人,将有机会说:“我早就告诉过你了。”我只希望我们能记住,预测未来异常困难,我们现在真的无法确切知道最终的走向。

因此,在未来的几年里,我鼓励你保持开放的心态,愿意如实地看待世界,而非按照你所希望的样子去看待它。我们将学到很多,经历很多变化,所以我们需要欣然接受即将发生的一切,而不是仅仅因为它不符合我们的预期就加以排斥。


本站总访问量