什么是神经网络?
神经网络(Neural Network)是一种受人脑工作方式启发的计算模型。人脑由约 860 亿个神经元组成,这些神经元彼此相连,通过电信号传递信息。人工神经网络正是对这一过程的数学抽象——用数字"神经元"和可学习的连接权重,来模拟大脑的信息处理机制。
与传统程序"告诉计算机该怎么做"不同,神经网络通过大量数据进行训练,让模型自己学会规律。这正是它能识别图片中的猫、理解你说的话、翻译外语的秘诀。
生物启发
1943 年,神经科学家 Warren McCulloch 与数学家 Walter Pitts 提出了第一个神经元的数学模型。真正的人工神经元(感知机)由 Frank Rosenblatt 于 1958 年实现。如今,GPT、AlphaFold、Stable Diffusion 等震惊世界的 AI 系统,都建立在这个七十年前的基础概念之上。
McCulloch-Pitts 神经元数学模型提出
感知机(Perceptron)问世
反向传播算法普及,多层网络成为可能
AlexNet 夺冠 ImageNet,深度学习时代开启
Transformer 架构发表,大语言模型崛起
ChatGPT、GPT-4、Gemini 引爆 AI 浪潮
神经网络如何工作?
1. 神经元与层
神经网络由层(Layer)组成,每层包含若干神经元(Neuron)。信息从左到右流动:
- 输入层:接收原始数据,例如图片的每个像素值。
- 隐藏层:中间层,负责提取特征、学习抽象表示,可以有一层或数百层。
- 输出层:给出最终预测,如"这张图是猫还是狗"。
2. 权重与偏置
每条神经元之间的连接都有一个权重(Weight),代表这条连接的重要程度。神经元还有一个偏置(Bias),用于调整激活阈值。权重和偏置就是网络中所有可学习的参数——GPT-4 的参数量约为 1.8 万亿个。
单个神经元的计算:
输出 = 激活函数( w₁x₁ + w₂x₂ + … + wₙxₙ + b )
3. 激活函数
如果没有激活函数,多层神经网络本质上只是一个线性函数,无法学习复杂规律。激活函数引入非线性,赋予网络强大的表达能力。
Sigmoid
σ(x) = 1 / (1+e⁻ˣ)
将输出压缩到 (0,1),适合二分类输出层,但存在梯度消失问题。
ReLU
f(x) = max(0, x)
目前最常用的激活函数,计算简单,有效缓解梯度消失,加速训练。
Softmax
p(i) = eˣⁱ / Σeˣʲ
将多个输出转换为概率分布,各类别概率之和为 1,多分类必备。
4. 训练:反向传播与梯度下降
训练是神经网络"学习"的过程,可分为三步循环:
- 前向传播(Forward Pass):将输入数据依次通过各层,得到预测结果。
- 计算损失(Loss):用损失函数(如均方误差、交叉熵)衡量预测与真实答案的差距。
- 反向传播(Backpropagation):用链式法则计算损失对每个权重的梯度,再由梯度下降算法调整权重,使损失减小。
主要网络类型
卷积神经网络 CNN
专为处理网格状数据(图像、视频)设计。通过卷积核扫描输入,提取边缘、纹理、形状等局部特征,大幅减少参数量。
代表应用:图像分类、目标检测、人脸识别
循环神经网络 RNN / LSTM
专为序列数据设计,具有"记忆"能力。LSTM(长短期记忆)通过门控机制解决了原始 RNN 的梯度消失问题,能捕捉长距离依赖。
代表应用:语音识别、时间序列预测、机器翻译(早期)
Transformer
2017 年 Google 提出,彻底改变了 NLP 领域。核心是自注意力机制(Self-Attention),允许每个位置关注序列中所有其他位置,并行计算效率极高。
代表应用:GPT、BERT、视觉 Transformer(ViT)、多模态大模型
生成对抗网络 GAN
由生成器和判别器两个网络组成,相互博弈:生成器尝试生成以假乱真的数据,判别器尝试识别真假,最终生成器学会产生极为逼真的输出。
代表应用:图像生成、风格迁移、视频换脸、数据增强
扩散模型 Diffusion Model
通过学习逐步去噪的过程来生成数据。训练时向数据加噪,推理时从纯噪声出发,一步步还原出清晰图像,生成质量高、多样性强。
代表应用:Stable Diffusion、DALL·E 3、Sora(视频生成)
图神经网络 GNN
专为图结构数据(节点+边)设计,通过消息传递机制让每个节点聚合邻居信息。能建模任意拓扑关系,远超 CNN/Transformer 的结构假设。
代表应用:分子属性预测、社交网络分析、推荐系统
神经网络的应用场景
如今,神经网络已渗透到几乎所有行业,以下是一些典型的落地方向:
计算机视觉
医学影像诊断、无人驾驶感知、工业质检、卫星图像分析
自然语言处理
智能客服、机器翻译、文档摘要、代码生成、情感分析
语音技术
语音识别(Siri / Alexa)、语音合成、声纹识别、噪声消除
生命科学
AlphaFold 蛋白质结构预测、新药发现、基因组学分析
强化学习与游戏
AlphaGo、星际争霸 AI、机器人运动控制、策略优化
金融与推荐
量化交易、风险评估、个性化推荐、欺诈检测
核心概念速查
| 概念 | 一句话解释 |
|---|---|
| 参数(Parameter) | 网络中所有可学习的权重和偏置的统称 |
| 损失函数(Loss Function) | 衡量模型预测与真实标签差距的函数,训练目标是使其最小 |
| 梯度下降(Gradient Descent) | 沿损失函数梯度反方向更新参数的优化算法 |
| 学习率(Learning Rate) | 每次参数更新的步长,过大震荡、过小收敛慢 |
| 批量大小(Batch Size) | 每次更新参数时使用的样本数量 |
| 过拟合(Overfitting) | 模型记住训练数据,但对新数据泛化差,需 Dropout/正则化缓解 |
| 迁移学习(Transfer Learning) | 用预训练模型在新任务上微调,大幅节省数据和算力 |
| 注意力机制(Attention) | 让模型动态决定"关注"输入的哪些部分,是 Transformer 的核心 |