祝你好运的技术博客

Published on

从零学AI--大模型到底是什么原理

Authors
  • avatar
    Name
    祝你好运
    Twitter

大模型的本质

大模型最本质的任务只有一句话:

预测下一个 Token。

大模型训练得到的结果

其实就是一个数据结构,这个数据结构的作用就是,基于用户的各种输入,预测下一个token是什么。

如何做训练的

训练的时候就是基于海量的数据,我们用模型正向算一遍(预测下一个token),然后跟正确答案对比。如果不对,我们就算一下差了多少,然后反向调整我们的参数,让她能尽可能的让我们能计算得到正确答案。 我们说的模型的70B,就是70 billion,也就是700亿个参数。这个参数越多,训练后的结果(也就是那个数据结构)越大,越精细。也能越准确的预测下一个token。

我能实现一个大语言模型吗?

答案是可以,而且不难。ChatGPT给了我一份学习材料:Andrej Karpathy的《Let's build GPT from scratch》。这个材料我还没学,我不知道他会不会结合GPT的原理给我讲解实现,如果单纯实现不讲原理那就没意思了,不过我推测肯定会讲解原理,具体降多少就不知道了。

简单理解

GPT就是下面的流程:

Tokenizer
+
Embedding
+
Transformer
+
Next Token Prediction

而训练的过程就是:

海量文本
不断猜下一个Token
猜错
调整参数
继续猜