麻省理工学院最新发现:过去十年的算法进步被高估了

机器之心报告 机器之心编辑部 在过去的十年里,人工智能的进步主要由两股密切相关的力量推动:快速增加的计算预算和算法创新。尽管计算复杂性的增加很容易通过比较来衡量,但我们仍然无法清楚地量化算法的进步、哪些变化会带来更高的效率、这些改进的幅度以及它们是否适用于不同的计算规模。 2024 年,多项研究分析了数百种语言模型,估计过去十年的算法进步为所谓的高效计算贡献了四个数量级以上。此外,根据对历史人工智能文献的分析,计算规模本身增加了七个数量级。具体来说,所有算法创新结合起来将模型的效率提高了约 22,000 倍。这意味着,在理论上,您可以使用更少的浮点运算 (FLOP) 来实现相同水平的性能。然而,目前还不可能精确分解这些进步,并且有关算法进步来源的许多重要问题仍未得到探索。例如:不同的算法改进如何相互作用?算法的进步是由一系列小的变化累积而成的,还是由一些大的进步驱动的?算法改进是否像摩尔定律一样平稳且持续地发展,或者它们是否表现出间歇性平衡模式(即长时间停滞+突然大幅跳跃)?为了回答这些问题,麻省理工学院和其他机构的研究人员使用了三种互补的方法。一是消融实验,以在语言模型中实现重要的算法改进。扩展实验来衡量不同架构之间最佳扩展行为的差异。数据及参数的理论分析缩放变换。文章地址:https://arxiv.org/pdf/2511.21622 文章标题:论 AI 算法进步的起源 最后得出三个结论: 1:实验评估的算法创新 大多数新的改进仅带来小规模无关的效率提升,总体计算效率提升不到 10 倍,通过估计 2025 年算力极限(2 × 1023 FLOP),这些改进代表了整体的改进。 10%。这表明与规模无关的算法的进步只占整体效率增益的一小部分2:在本文中,我们发现了两种强烈依赖于升级的算法创新:从 LSTM 到 Transformer 以及从 Kaplan 到 Chinchilla。推断到 2025 年的计算前沿,这两项创新合计占所有效率提升的 91%。这意味着,对于小规模模型,算法的进步比小规模模型要小几个数量级。之前以为。 3:规模创新,效率不仅需要持续的计算投入,而且算法的进展速度高度依赖于所选择的参考算法。换句话说,与单个基线算法相比,连续模型之间的进展速度可以呈指数级增长。然而,与其他基准算法相比,它可能完全为零。总之,这些发现表明算法的进步本质上是依赖于规模的,并且计算规模需要继续增加才能获得真正的好处。同时,这也意味着算法的进步对大型模型开发者的好处远大于小型模型开发者。尺度不变算法在本文中,我们首先通过大量的消融实验来分析单个算法的影响,以绘制出算法改进的详细图景。此外,本文还尝试估计多种算法组合的联合效果节奏。本文表明,原始论文(即提出算法改进的论文)中声称的效率增益往往远高于后来文献中给出的估计,也高于本文的实验结果。规模不变算法的效率增益很小,并且方差非常不均等。实验结果是,Mode我们发现切换为rn Transformer时的整体效率提升为6.28倍,而从LSTM切换为Retro Transformer时的效率提升为4.69倍。这远低于 Ho 等人的估计。 (2024) 提出将 LSTM → Transformer 改进约 60 倍。该论文指出,一些改进(例如 Adam 优化器以及从 post-layernorm 到 pre-RMSNorm 的切换)将效率提高了约 2 倍,但作者衡量的大多数创新仅带来了很小的收益。有趣的是,他们发现效率的分布效率的提高是高度倾斜的。所有被删除的创新产生的改进不到 4 倍,但改进非常不均匀,并且集中在少数改进上,例如 Adam 和 pre-layernorm。从这个角度来看,算法的进步比以前想象的更加分散/不连续,多年来的小改进伴随着算法的巨大飞跃。由于许多改进带来的效率增益很小,因此本文也有动机进行第二部分实验,以比较不同尺度下算法变化的影响,从而揭示这些变化对神经网络尺度规律的影响。规模敏感算法如上所述,算法改进对于小规模模型的好处非常有限。因此,一个自然的问题就出现了:算法利润会大规模增加吗?因此,在本文中,我们对不同的架构、优化器和算法创新进行了扩展实验更好地了解效率增益如何随计算规模变化。实验模型主要是LSTM、Transformer以及Transformer的两个变体(Modern Transformer和Retro Transformer)。放大和放大实验:从 LSTM 到 Transformer 图 4A 显示了 LSTM,最新的图 4B 显示了 Modern Transformer 和 Retro Transformer 之间的规模差异。规模图显示,神经网络架构的改进与规模无关,但随着规模的扩大,效益越来越大。算法的进步很大程度上取决于计算能力和参考基线的规模。算法的进步可能主要归功于计算能力的增强。本文提出以下问题:上述算法进步与时间相关的说法,实际上是算力投资持续增加驱动的吗?据估计,下一代模型的计算预算正以每年 4.2 倍的速度快速增长。所以随着计算能力预算呈指数级增长,算法进步的速度可能不会通过新的算法创新来推动,而是通过计算能力的周期性扩张来推动。本文表明,2017 年至 2025 年间,可解释算法的几乎所有进步都是由两项与规模相关的创新驱动的:从 LSTM 到 Transformer 的转变以及从 Kaplan 到 Chinchilla 训练策略。所有其他算法改进加起来只是一小部分。在 21,400 倍的总性能提升(与 LSTM 模型相比)中,我们发现 846 倍是通过从 LSTM 模型迁移到 Kaplan Transformer 模型实现的,近 10 倍是由于龙猫训练策略的调整。这两项创新合计占总体相对效率提升的 91%。算法进展的速度取决于您选择的对照组。这是否意味着更强大的算法意味着更快的进步是?事实上,这完全取决于你选择谁作为参考。 A更改参考对象会立即改变算法进行的速度。一些算法的改进取决于规模,因此大型模型和大计算能力的显着改进。但对于小模型、低算力的情况影响不大。这导致了一个有趣的现象。以 LSTM 为参考,Transformer 系列(尤其是较大的模型)中的算法进步似乎呈指数级增长(论文测得年增长率约为 63%,非常快)。然而,如果我们使用 Transformer 作为参考,我们在扩展时几乎看不到增长,并且算法仅比以前提高了 2 倍。换句话说,改变对照组会使算法的进度从指数增长变为可忽略不计的增长。
特别提示:以上内容(含图片、视频,如有)由本站用户上传发布自有媒体平台“网易号”。本平台仅提供信息存储服务。
无冰:上述内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。
马来西亚也很苦恼啊!筹集73亿,交给华为、中兴建设全国5G网络!网友:直接批评西方网络威胁论

文章已创建 209

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部