亲身踩坑经历。训练大模型,我认为收集数据难、寻找技术路径难、评测生成结果难。
收集数据
首先,训练大模型需要的数据是海量的,一般几种途径获取:
- 自家业务的原有数据(不够多)
- 合作方数据(白P的思路)
- 购买数据(天价,且很多时候有价无市)
- 面向社区收集数据(数据质量参差不齐)
- 批量生成数据(不够贴合实际)
这些数据需要人工清洗和额外的标注,数据量巨大需要专门的标注工具。不同数据来源,如何理解和平衡数据的分布,都会影响到最终的结果。
寻找技术路径
很多吃瓜群众会以为,训练大模型就像烧饭,有了原材料、知道菜谱,只要搅几下锅铲就能出锅了。其实训练的过程更像在丛林里寻宝,指南针是顶尖的人才,算力是铲子,要从一条一条的分岔路中不断试错和纠正,找到算法和数据的最优组合。
事实证明,哪怕强如谷歌,技术路径上也会有押不中宝的时候。比如 OpenAI Sora 出来以后,文生视频的其他团队才恍然大悟,赶紧搞 DiT 架构来对标。
由于大模型只有到了一定规模才会涌现的特性,你没法在小模型上低成本地做实验。。训练一次,成本就哗啦啦的。。。
个人估测,知道技术大方向再用一样的数据去训练,能节省60-90% 的训练成本。但其中的细节,比如数据来源、模型参数选择、某些奇特的处理方式等等,还是有很多错误空间。
评测生成结果
各家语言模型专门刷榜的事情就不说了,即使对内,也没有特别好的定量评估模型的方法。很多论文都还停留在搞搞 user study 肉眼可见地去评判(对,我骂我自己),去年 Y Combinator 聊到有个初创公司专门做模型评测解决方案的,不知道现在怎么样了。
总结一下,训练大模型大概就是传说中的,万事开头难、中间难、结尾难吧。
哇,难得看到能通俗地讲明白个中缘由的文章。
谢谢你呀!我会继续发布AI相关文章