泛絮脑琢到底是什么情况?-潜江资讯网

　　距上次Karpathy AI大课更新之后，又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。

　　翻看以往Zero To Hero系列中的视频，最长的也不过2小时25分，这次4小时完全创下了最新记录。

　　Karpathy表示，这次「过夜」的训练结果，表现甚至接近GPT-3（124M）模型的水平。

　　之所以选择这一参数，要清楚的是，GPT-2在发布前会有一个小系列（miniseries），其中有4种参数，而最大的那个称为GPT-2。

　　另外，你可以将模型放在X轴上，各种下游指标放在Y轴上，便可以画出Sacling Law定律的曲线。基本上，随着模型规模扩大，下游任务性能越好。

　　GPT-2发布已经是5年前的事了，而现在复现容易得很多，对GPU计算需求没那么大，大概需要1个小时，10美元的成本。

　　Karpathy表示，自己训练模型的GPU来自Lambda GPU Cloud，因为他认为这是在云中按需启动GPU实例的最佳和最简单的方法。

　　如下是，GPT-2模型内部不同的参数和形状，W token嵌入的权重大小是50257, 768。

泛絮脑琢到底是什么情况?