模块四:拆解黑盒 — 从零训练微型 GPT
模块四 · 4 周 预计 14 小时模块概述
这是整个路线中最「硬核」的部分——也是让你从「会用 AI」跨越到「理解 AI」的关键。我们用纯 Python + NumPy,从零实现一个微型 GPT。
不需要 GPU,不需要深度学习框架,不需要任何 AI 背景。只要你会 Python 和高中数学,就能一步步自己写出一个能生成文字的小型 GPT。
🎯
做完这个模块,你再也不会觉得 AI 是魔法。 你会亲眼看到:一堆数字(参数)在矩阵乘法中流动,损失函数慢慢下降,模型从乱码逐渐生成出有意义的文字。整个过程不到 2000 行 Python。
你将学到什么
你将做出的项目
4
变现视角 · 三视角复盘
训练模型成本极高(百万美元级),但微调和应用成本极低。个人开发者的战场在「应用层」不在「模型层」。但理解模型层能让你做出更好的应用决策——知道为什么选 RAG 而不是微调,知道什么时候该用哪个模型。
教育视角 · 三视角复盘
AI 不是魔法,就是一大堆数学运算。它的学习过程和你学说话很像——听多了、看多了,慢慢就学会了。只不过它读过的书是你的几百万倍。
1
第一周:神经网络基础
从感知机到多层网络,用 NumPy 实现前向传播。理解权重、偏置、激活函数。
2
第二周:反向传播
手工推导反向传播的数学过程,代码实现自动梯度。理解梯度下降和链式法则。
3
第三周:Transformer 解剖
逐行理解 Transformer 组件。重点攻克 Self-Attention——AI 学习中最重要的概念。
4
第四周:训练微型 GPT
用莎士比亚文本训练字符级 GPT。观察 loss 下降、生成质量提升的全过程。