从零学AI--大模型到底是什么原理

大模型的本质

大模型最本质的任务只有一句话：

预测下一个 Token。

大模型训练得到的结果

其实就是一个数据结构，这个数据结构的作用就是，基于用户的各种输入，预测下一个token是什么。

如何做训练的

训练的时候就是基于海量的数据，我们用模型正向算一遍（预测下一个token），然后跟正确答案对比。如果不对，我们就算一下差了多少，然后反向调整我们的参数，让她能尽可能的让我们能计算得到正确答案。我们说的模型的70B，就是70 billion，也就是700亿个参数。这个参数越多，训练后的结果（也就是那个数据结构）越大，越精细。也能越准确的预测下一个token。

我能实现一个大语言模型吗？

答案是可以，而且不难。ChatGPT给了我一份学习材料：Andrej Karpathy的《Let's build GPT from scratch》。这个材料我还没学，我不知道他会不会结合GPT的原理给我讲解实现，如果单纯实现不讲原理那就没意思了，不过我推测肯定会讲解原理，具体降多少就不知道了。

简单理解

GPT就是下面的流程：

Tokenizer
+
Embedding
+
Transformer
+
Next Token Prediction

而训练的过程就是：

海量文本
↓
不断猜下一个Token
↓
猜错
↓
调整参数
↓
继续猜

后记

在我写这篇博客的时候，我还没有正式的开始系统性的学习AI相关知识（当然是刚开始），所以上面的总结也都是根据以前的知识，以及问大模型之后总结的，所以可能很多地方并不准确，不过这没关系，学习也是慢慢来的，不断纠正之前的错误，大模型的训练不就是慢慢纠错的过程吗？