我们大脑的860亿神经元:大型语言模型能超越吗?
人类大脑是一个复杂的生物系统,历经数百万年的进化而臻于完善。它与大型语言模型(LLM)形成鲜明对比,后者是人工智能领域的最新成就。尽管大型语言模型在语言处理方面展现出令人 впечатляющих 的能力,但它们真的能超越人类大脑的复杂性和能力吗?

人脑通常被认为是哺乳动物中认知能力最先进的,而且它的大小似乎明显超出我们体型所能预测的范围。神经元的数量通常被认为在大脑的计算能力中起着关键作用,然而,关于人脑包含 1000 亿个神经元和十倍数量的神经胶质细胞的普遍说法从未得到科学证实。事实上,直到最近,人类大脑中神经元和神经胶质细胞的确切数量仍然未知。
最新的研究结果表明,成年男性大脑平均包含 861 ± 81 亿个神经元和 846 ± 98 亿个非神经元细胞(神经胶质细胞)。有趣的是,即使大脑皮层占人类大脑质量的 82%,但只有 19% 的神经元位于大脑皮层中。这意味着人类皮层尺寸的增加并非伴随着皮层神经元数量的成比例增加。
人类大脑不同区域中神经胶质细胞与神经元的比例与其他灵长类动物中观察到的相似,并且细胞总数与人类体型的灵长类动物的预期值一致。这些结果挑战了长期以来人们认为人类大脑与其他灵长类动物相比具有特殊组成的观点。相反,它们表明,人类大脑是普通灵长类动物大脑按比例放大的版本——本质上,是适应人类体型的灵长类动物大脑。
这一认识提供了一个新的视角,促使我们重新思考是什么真正使人类的思想和认知能力与众不同。然而,今天,我从另一个角度来探讨这个问题:我们的大脑可以与大型语言模型(LLM)相提并论吗?例如,在参数数量方面?或者,尽管人工智能研究人员和开发人员不断研究我们的大脑,并试图将其运作方式转化为人工智能系统,但任何比较都是毫无意义的吗?仅仅因为一个系统是化学系统,而另一个系统是电子系统?但首先,需要一些相关的背景信息。
神经元是如何计数的?
估计神经元的数量是一项棘手的任务,因为大脑的结构并非均匀分布。一种方法是计算特定大脑区域中的神经元,然后将该值外推到整个大脑。然而,这种方法存在几个问题:
-
分布不均
神经元的密度在不同的大脑区域差异很大。例如,位于大脑后下部的小脑包含大约一半的神经元,尽管与大脑的其他部分相比,其体积要小得多。这是因为小脑的微小神经元负责微调运动协调和其他自动化过程。先前提到的大脑皮层——负责高阶思维——包含较大的神经元,形成更复杂的网络。在这里,每立方毫米包含大约 50,000 个神经元。 -
神经元可见性
神经元密集且错综复杂地相互连接,以至于单独计数它们非常困难。经典的解决方案是高尔基染色法,由卡米洛·高尔基开发。这项技术仅对一小部分神经元(通常是百分之几)进行染色,使其他细胞不可见。虽然这有助于获得更详细的样本,但外推结果仍然存在不确定性。
最新的、更准确的估计是基于一项创新技术。研究人员溶解脑细胞的膜,创造出一种均匀的混合物——一种“脑汤”——其中可以区分脑细胞的细胞核。用不同的标记物染色这些细胞核可以将神经元与其他脑细胞(如神经胶质细胞)分离。这种方法通常被称为各向同性分馏器技术,它消除了大脑区域之间密度差异引起的误差,并为整个大脑提供了更准确的结果。
尽管这项新技术大大降低了先前估计的不确定性,但该方法仍然依赖于抽样和外推。
人脑是如何工作的?
大脑的基本组成部分是神经元,我们现在知道成年人大脑中大约有 860 亿个神经元。然而,它们并非完全相同——存在许多不同类型的神经元,执行不同的功能。与神经元并存的是大致相同数量的神经胶质细胞,它们提供支持功能,例如供应营养物质和参与免疫防御。
神经元之间的连接,即突触,才是使大脑真正特别之处。平均每个神经元与其他神经元形成约 7,000 个突触,导致大脑中总共有约 600-1000 万亿个突触连接。这些连接不是静态的——它们在学习过程中不断变化,加强或减弱。这被称为突触可塑性。
来源:维基百科
不同的大脑区域专门负责特定的功能(如前所述)。大脑是意识思维、感知和运动计划的中心。小脑是运动协调和程序性学习的主要区域。脑干调节基本生命功能,而边缘系统负责情绪处理和记忆。
大脑中的信息处理是并行发生的——不同的区域同时处理不同的任务。信息通过电信号和化学信号的组合传输。当神经元被激活时,它会沿着轴突发送电脉冲(动作电位),从而在突触处触发神经递质的释放。然后,这些化学信使会影响下一个神经元的活动。
大脑的能量消耗非常高效——仅消耗约 20 瓦,相当于节能灯泡的功率。尽管如此,大脑消耗了人体总能量消耗的约 20%(而仅占我们身体质量的 2%),这表明信息处理是多么耗能。
大脑活动不仅在神经元水平上组织起来。可以观察到不同频率的脑电波(α 波、β 波、θ 波、δ 波),反映了大量神经元的同步活动。这些节律起着重要的作用,例如,在记忆巩固和注意力过程中。
大脑最重要的特性之一是它的可塑性——它在一生中重组自身的能力。这不仅是学习的基础,也是受伤后部分康复的基础。神经可塑性通过多种机制发生,例如新突触的形成、现有连接的加强或减弱,以及在某些情况下,甚至新神经元的形成(神经发生)。
现代研究表明,大脑不仅与中枢神经系统相连,还与肠道(肠-脑轴)密切相互作用,并受到免疫系统的显着影响。这种复杂的相互作用网络解释了为什么饮食或压力等因素对认知功能产生如此深远的影响。
关于大脑功能,科学仍然面临许多问题。例如,我们尚不清楚意识是如何产生的,也不确切知道记忆是如何存储和检索的。正在进行的大规模大脑研究项目,例如人类大脑计划或 BRAIN Initiative,有望在不久的将来取得更多新发现。
语言模型是如何工作的?
虽然人类大脑的基本结构是相似的,但在结构和功能上观察到个体差异(由于神经多样性或个体经历等因素),但人工智能语言模型在结构和参数方面表现出广泛的差异。这些模型差异可能源于使用不同的架构(如 Transformer 与循环网络)或在不同的数据集上进行训练。然而,在某些领域,它们或多或少是一致的。我将尝试概述这些领域。
基于 Transformer 的语言模型(如 GPT 或 Llama 模型)从根本上由 Transformer 块(层)构建,这些块包含编码器和解码器部分(或通常只是解码器部分)。每个块包含几个执行不同任务的组件。其中最重要的是多头自注意力机制和前馈神经网络层。除了这些组件外,层归一化、dropout 和位置编码也起着重要作用。自注意力机制的本质在于它可以动态地学习输入词之间的关系,而前馈网络则执行非线性变换。
当我们谈论参数数量(语言模型最重要的决定因素之一,通常甚至包含在模型名称中)时,我们实际上指的是模型可学习的权重和偏差的总和。这些参数决定了模型如何处理信息,并在训练(学习过程)期间进行优化。参数的数量取决于几个因素:
-
Transformer 块的数量: 较大的模型通常包含更多的 Transformer 块。例如,GPT-3 的 1750 亿个参数 [^1] 使用了 96 个块(层),而 Llama 2 700 亿参数版本使用了 80 个块。块的深度显着影响参数数量。
-
隐藏状态大小: 这是一个向量,表示给定块内的信息,并决定了模型可以同时处理多少信息。这个数字越大,Transformer 块中需要的参数就越多。
-
注意力头的数量: 多头注意力允许模型从不同的角度分析相同的输入。每个注意力头都需要额外的参数。
查看具体数字:在一个典型的 Transformer 块中,参数分布在:
-
注意力机制的权重矩阵(Query、Key、Value 矩阵)
-
前馈网络的权重和偏差
-
层归一化的缩放和偏移参数
-
位置编码的参数(对于学习版本和正弦版本)
一个有趣的方面是计算复杂度:自注意力机制的计算成本随着序列长度呈二次方增长。这意味着,尽管模型具有许多参数,但并非所有参数在实际处理过程中都是活跃的。稀疏注意力技术试图解决这个问题。
因此,仅参数数量不一定是衡量模型能力的良好指标。一个架构更好的较小模型通常可以胜过一个较大但效率较低的模型。模型性能也使用诸如准确率、F1 分数、BLEU 分数或 PERPLEXITY 等指标来评估。这类似于人脑,重要的不仅仅是神经元或突触的数量,还有它们的组织和它们之间连接的质量。
大脑能否根据特定值与语言模型进行比较?
虽然通过将人工智能的当前水平与其性能和知识与我们的大脑进行比较可能很诱人,但以上描述表明,尽管开发人工系统的主要来源是对我们大脑结构和功能的研究(因为它是一个可行的例子——无论这听起来多么微不足道,但这都是一个关键事实),但这种比较远非直截了当。直接将 LLM 参数与神经元或突触的数量进行比较是不可行的,因为这两个系统基于根本不同的运行原理和架构。然而,尽管存在根本差异,但这两个系统之间可以进行一些类比。
神经元与 LLM 层
-
LLM 层在某种程度上类似于大脑的层次结构,其中信息处理发生在多个层级。然而,在大脑中,层次结构更具功能性,并划分为专门的区域,而在 LLM 中,层代表抽象层级。
-
神经元是局部独立的单元,但在全局上组织成网络,而 LLM 层通过注意力机制在全球范围内相互依赖。自注意力允许层内进行全局信息流动。
突触与 LLM 参数
-
LLM 参数类似于突触,因为两者都影响信息流的强度,尽管通过不同的机制。
-
突触动态变化和适应,而 LLM 参数在训练后是静态的。微调允许参数再次更改,但这仍然与突触的动态性质不匹配。突触强度通过长时程增强 (LTP) 或长时程抑制 (LTD) 发生变化,这些是动态的生物电化学过程。
什么更能代表 LLM 参数?
-
神经元和突触都不能准确地代表 LLM 参数,但最接近的类比是突触,因为它们也调节连接和信息流的强度。使用这种方法,有趣的是注意到,大脑中的突触数量比 LLM 中的参数数量级大(100-1000 万亿个突触,而最大的 LLM 中有 700 亿到可能超过 1 万亿个参数)。
-
然而,突触比 LLM 参数复杂得多且动态得多。突触不仅仅是简单的权重;它们通过复杂的生物电化学过程调节连接,这些过程根据活动和经验动态变化。
为什么类比不精确?
-
操作差异:
-
大脑表现出生物并行性并处理连续信号,而 LLM 依赖于数值处理器(GPU/TPU)执行的离散数字计算。在大脑中,计算由生化过程和电信号执行。
-
-
学习机制:
-
即使在少量数据的情况下,大脑学习也是动态且高效的。模式识别和强化起着至关重要的作用。人类学习通常是一次性或少样本学习,能够从少量示例中进行概括。强化学习在大脑中也很重要。
-
LLM 训练需要大量数据和计算资源。LLM 从少量示例中进行概括的能力较弱。
-
-
能源效率:
-
大脑非常节能。训练和运行 LLM 非常耗能,比人脑的能量消耗大几个数量级。
-
-
表征:
-
大脑中的表征是分布式的和动态的,而在 LLM 中,它们更像是静态向量。
-
大脑与意识和主观体验相关联,而 LLM 目前缺乏这些。
-
-
架构:
-
大脑的层次组织更加复杂和模块化,不同的区域执行不同的功能。这种模块化在 LLM 中不太明显。
-
反馈回路在大脑中起着重要作用,而这在大多数 LLM 中不太常见。
-
-
适应性和灵活性:
-
由于神经可塑性,大脑具有高度的适应性和灵活性,而 LLM 在训练后适应变化的能力较弱。
-
大脑可以适应其环境,而 LLM 的这种能力不太明显。
-
-
情感和动机:
-
情感在大脑的决策和学习中起着至关重要的作用,这是 LLM 中缺失的一个维度。
-
动机对于大脑中的行为至关重要,这是 LLM 中缺少的另一个维度。
-
总结
正如我们所见,尽管可以在 LLM 层和大脑的层次结构之间,或者在 LLM 参数和突触之间进行某些类比,但这些类比是有限的。因此,文章标题中提出的问题“我们大脑的 860 亿神经元:大型语言模型能超越它们吗?”没有直接的答案。
这两个系统基于根本不同的运行原理和架构。LLM 缺乏意识、主观体验,并且无法像大脑那样从少量示例中进行概括。
未来的人工智能研究可能会侧重于进一步发展 LLM 的能力,可能使它们更接近人脑的运作方式。这可能包括开发更动态的学习机制、更高的能源效率、更好的概括能力,甚至可能实现某种形式的意识。更深入地了解大脑功能可能有助于开发更高效和智能的人工智能系统。
然而,重要的是要记住,LLM 不是人脑的复制品,而是代表了实现智能的不同路径。理解这两个系统之间的差异对于负责任和有效地利用人工智能提供的机会至关重要。未来,神经科学和人工智能之间的协同作用可能会为这两个领域开辟新的视野。
来源:
- https://pubmed.ncbi.nlm.nih.gov/19226510/
- https://www.nature.com/scitable/blog/brain-metrics/are_there_really_as_many/
- https://www.sciencealert.com/scientists-quantified-the-speed-of-human-thought-and-its-a-big-surprise
- https://www.ndtv.com/science/human-brains-are-not-as-fast-as-we-previously-thought-study-reveals-7323078
- https://www.sciencealert.com/physics-study-overturns-a-100-year-old-assumption-on-how-brains-work
[^1]: 注:虽然 175B 是原始 GPT-3 的广泛引用数据,但较新模型或特定版本的参数计数可能会有所不同,有时不会正式公开。