为什么说大模型训练很难？

亲身踩坑经历。训练大模型，我认为收集数据难、寻找技术路径难、评测生成结果难。

收集数据

首先，训练大模型需要的数据是海量的，一般几种途径获取：

这些数据需要人工清洗和额外的标注，数据量巨大需要专门的标注工具。不同数据来源，如何理解和平衡数据的分布，都会影响到最终的结果。

寻找技术路径

很多吃瓜群众会以为，训练大模型就像烧饭，有了原材料、知道菜谱，只要搅几下锅铲就能出锅了。其实训练的过程更像在丛林里寻宝，指南针是顶尖的人才，算力是铲子，要从一条一条的分岔路中不断试错和纠正，找到算法和数据的最优组合。

事实证明，哪怕强如谷歌，技术路径上也会有押不中宝的时候。比如 OpenAI Sora 出来以后，文生视频的其他团队才恍然大悟，赶紧搞 DiT 架构来对标。

由于大模型只有到了一定规模才会涌现的特性，你没法在小模型上低成本地做实验。。训练一次，成本就哗啦啦的。。。

个人估测，知道技术大方向再用一样的数据去训练，能节省60-90% 的训练成本。但其中的细节，比如数据来源、模型参数选择、某些奇特的处理方式等等，还是有很多错误空间。

评测生成结果

各家语言模型专门刷榜的事情就不说了，即使对内，也没有特别好的定量评估模型的方法。很多论文都还停留在搞搞 user study 肉眼可见地去评判（对，我骂我自己），去年 Y Combinator 聊到有个初创公司专门做模型评测解决方案的，不知道现在怎么样了。

总结一下，训练大模型大概就是传说中的，万事开头难、中间难、结尾难吧。

评论区