- Published on
从零学AI--大模型到底是什么原理
- Authors

- Name
- 祝你好运
大模型的本质
大模型最本质的任务只有一句话:
预测下一个 Token。
大模型训练得到的结果
其实就是一个数据结构,这个数据结构的作用就是,基于用户的各种输入,预测下一个token是什么。
如何做训练的
训练的时候就是基于海量的数据,我们用模型正向算一遍(预测下一个token),然后跟正确答案对比。如果不对,我们就算一下差了多少,然后反向调整我们的参数,让她能尽可能的让我们能计算得到正确答案。 我们说的模型的70B,就是70 billion,也就是700亿个参数。这个参数越多,训练后的结果(也就是那个数据结构)越大,越精细。也能越准确的预测下一个token。
我能实现一个大语言模型吗?
答案是可以,而且不难。ChatGPT给了我一份学习材料:Andrej Karpathy的《Let's build GPT from scratch》。这个材料我还没学,我不知道他会不会结合GPT的原理给我讲解实现,如果单纯实现不讲原理那就没意思了,不过我推测肯定会讲解原理,具体降多少就不知道了。
简单理解
GPT就是下面的流程:
Tokenizer
+
Embedding
+
Transformer
+
Next Token Prediction
而训练的过程就是:
海量文本
↓
不断猜下一个Token
↓
猜错
↓
调整参数
↓
继续猜