深度学习科普

神经网络
是如何思考的?

从一个生物神经元出发,揭开深度学习背后那张庞大而精妙的数学网络。

作者:AI 科普编辑部 阅读约需 8 分钟 2026 年 4 月

什么是神经网络?

神经网络(Neural Network)是一种受人脑工作方式启发的计算模型。人脑由约 860 亿个神经元组成,这些神经元彼此相连,通过电信号传递信息。人工神经网络正是对这一过程的数学抽象——用数字"神经元"和可学习的连接权重,来模拟大脑的信息处理机制。

与传统程序"告诉计算机该怎么做"不同,神经网络通过大量数据进行训练,让模型自己学会规律。这正是它能识别图片中的猫、理解你说的话、翻译外语的秘诀。

一句话定义:神经网络是由大量参数连接的数学函数,通过训练数据调整参数,使其能对新输入做出准确预测。

生物启发

1943 年,神经科学家 Warren McCulloch 与数学家 Walter Pitts 提出了第一个神经元的数学模型。真正的人工神经元(感知机)由 Frank Rosenblatt 于 1958 年实现。如今,GPT、AlphaFold、Stable Diffusion 等震惊世界的 AI 系统,都建立在这个七十年前的基础概念之上。

1943

McCulloch-Pitts 神经元数学模型提出

1958

感知机(Perceptron)问世

1986

反向传播算法普及,多层网络成为可能

2012

AlexNet 夺冠 ImageNet,深度学习时代开启

2017

Transformer 架构发表,大语言模型崛起

2022+

ChatGPT、GPT-4、Gemini 引爆 AI 浪潮

神经网络如何工作?

1. 神经元与层

神经网络由层(Layer)组成,每层包含若干神经元(Neuron)。信息从左到右流动:

  • 输入层:接收原始数据,例如图片的每个像素值。
  • 隐藏层:中间层,负责提取特征、学习抽象表示,可以有一层或数百层。
  • 输出层:给出最终预测,如"这张图是猫还是狗"。

2. 权重与偏置

每条神经元之间的连接都有一个权重(Weight),代表这条连接的重要程度。神经元还有一个偏置(Bias),用于调整激活阈值。权重和偏置就是网络中所有可学习的参数——GPT-4 的参数量约为 1.8 万亿个。

单个神经元的计算:

输出 = 激活函数( w₁x₁ + w₂x₂ + … + wₙxₙ + b )

3. 激活函数

如果没有激活函数,多层神经网络本质上只是一个线性函数,无法学习复杂规律。激活函数引入非线性,赋予网络强大的表达能力。

Sigmoid

σ(x) = 1 / (1+e⁻ˣ)

将输出压缩到 (0,1),适合二分类输出层,但存在梯度消失问题。

ReLU

f(x) = max(0, x)

目前最常用的激活函数,计算简单,有效缓解梯度消失,加速训练。

Softmax

p(i) = eˣⁱ / Σeˣʲ

将多个输出转换为概率分布,各类别概率之和为 1,多分类必备。

4. 训练:反向传播与梯度下降

训练是神经网络"学习"的过程,可分为三步循环:

  1. 前向传播(Forward Pass):将输入数据依次通过各层,得到预测结果。
  2. 计算损失(Loss):用损失函数(如均方误差、交叉熵)衡量预测与真实答案的差距。
  3. 反向传播(Backpropagation):用链式法则计算损失对每个权重的梯度,再由梯度下降算法调整权重,使损失减小。
💡
梯度下降的直觉:想象你站在一座山上蒙着眼睛,目标是找到山谷的最低点。每次你感受脚下的坡度(梯度),向最陡的下坡方向迈一小步(学习率),最终抵达谷底(损失最小值)。

主要网络类型

卷积神经网络 CNN

专为处理网格状数据(图像、视频)设计。通过卷积核扫描输入,提取边缘、纹理、形状等局部特征,大幅减少参数量。

代表应用:图像分类、目标检测、人脸识别

循环神经网络 RNN / LSTM

专为序列数据设计,具有"记忆"能力。LSTM(长短期记忆)通过门控机制解决了原始 RNN 的梯度消失问题,能捕捉长距离依赖。

代表应用:语音识别、时间序列预测、机器翻译(早期)

Transformer

2017 年 Google 提出,彻底改变了 NLP 领域。核心是自注意力机制(Self-Attention),允许每个位置关注序列中所有其他位置,并行计算效率极高。

代表应用:GPT、BERT、视觉 Transformer(ViT)、多模态大模型

生成对抗网络 GAN

生成器判别器两个网络组成,相互博弈:生成器尝试生成以假乱真的数据,判别器尝试识别真假,最终生成器学会产生极为逼真的输出。

代表应用:图像生成、风格迁移、视频换脸、数据增强

扩散模型 Diffusion Model

通过学习逐步去噪的过程来生成数据。训练时向数据加噪,推理时从纯噪声出发,一步步还原出清晰图像,生成质量高、多样性强。

代表应用:Stable Diffusion、DALL·E 3、Sora(视频生成)

图神经网络 GNN

专为图结构数据(节点+边)设计,通过消息传递机制让每个节点聚合邻居信息。能建模任意拓扑关系,远超 CNN/Transformer 的结构假设。

代表应用:分子属性预测、社交网络分析、推荐系统

神经网络的应用场景

如今,神经网络已渗透到几乎所有行业,以下是一些典型的落地方向:

📷

计算机视觉

医学影像诊断、无人驾驶感知、工业质检、卫星图像分析

💬

自然语言处理

智能客服、机器翻译、文档摘要、代码生成、情感分析

🎧

语音技术

语音识别(Siri / Alexa)、语音合成、声纹识别、噪声消除

🧬

生命科学

AlphaFold 蛋白质结构预测、新药发现、基因组学分析

🎮

强化学习与游戏

AlphaGo、星际争霸 AI、机器人运动控制、策略优化

📈

金融与推荐

量化交易、风险评估、个性化推荐、欺诈检测

核心概念速查

概念 一句话解释
参数(Parameter)网络中所有可学习的权重和偏置的统称
损失函数(Loss Function)衡量模型预测与真实标签差距的函数,训练目标是使其最小
梯度下降(Gradient Descent)沿损失函数梯度反方向更新参数的优化算法
学习率(Learning Rate)每次参数更新的步长,过大震荡、过小收敛慢
批量大小(Batch Size)每次更新参数时使用的样本数量
过拟合(Overfitting)模型记住训练数据,但对新数据泛化差,需 Dropout/正则化缓解
迁移学习(Transfer Learning)用预训练模型在新任务上微调,大幅节省数据和算力
注意力机制(Attention)让模型动态决定"关注"输入的哪些部分,是 Transformer 的核心