开源的LLaMA-3终于来了:首批发布两个版本,8B和70B,更多的版本还在路上,最大模型可以到400B,多模态。
重要的是开源,而且现在就可以在Meta ai里进行体验。
当然,其他重要的要点也要过一遍(如果要看比我总结的更好的Gemini 1.5的版本,请直接滚动屏幕到最后):
首先是模型表现,最小的8B版本的模型自然显著超越其他同规模参数的开源模型,发出来的70B参数版本甚至有跟Gemini 1.5一比的“勇气"。如今的评分虽然存在诸多问题,但是,最大版本的LLaMa-3(400B参数版本)的能力达到GPT-4甚至部分超越,是我们可以得到的很安全的推论;
其次,模型训练数据达到了15T,时间关系,我没有详细去看LLaMA-2的训练数据量,但是记忆中应该在2T-3T的这个数量级,这意味着至少五倍数据量的增加;
三,70B参数(七百亿)模型的训练时间是640w个GPU小时(H100-80GB,700W版本,就是最高配的nvlink连接的那种),如果假设训练时间是90天,意味着2963张卡。但是按照其他模型披露的更多技术细节看,一般训练的90天时长里,三分之一用于预训练,三分之二用于测试、精调、对齐,所以,七百亿参数的模型大概动用的集群规模差不多是8000-10000块H100。由于400B的模型还在优化(训练),meta介绍里披露的是:最大模型用了1.6万个GPU;这里面还有个有意思的细节,虽然70B的规模比8B增长了超过8倍,但是训练用的GPU时间只是5倍不到,其中原因当然是因为70B用的GPU集群更大,但这也告诉我们,至少在两万张卡的集群的范围下,规模越大,效率越高;
四、Scaling Law依然还在:无论是8B还是70B模型,训练数据量从200B提升到15T的过程中,看到了显著的表现提升,意味着这条道路依然可以走下去;
五、训练用了31种语言(非英语的占比5%)。训练部分的编码的词库达到了128K个token,每个batch size是8k。虽然可以在后续通过各种技术加入长上下文的支持,但是这依然意味着模型的输出能力相比其他主流模型并没有得到明显提升;
六、更大的400B(四千亿,多模态)模型还在路上,但是截止到4月15日的checkpoint的表现已经很惊人了;
结论
1、虽然Meta具备这样的能力,但是让LLaMA-3开源版本全面超越GPT-4(或者Claude3,Gemini 1.5),确实只是一个美好的期望。但是这一代的开源达到或接近GPT-4,meta实现了大家对LLaMa-3的期望;
2、正如前几天说的,最好的闭源是天花板,意味着人类可以达到的能力,最好的开源是全民福利,意味着都可以达到的基准,AI就是平权,虽然这种平权对商业机构而言,很可怕;
3、LLaMa-3对这一轮AI后面的发展重要性甚至超过预期中的GPT-5,我们可以看到在接下来三到六个月里,各种“模型继续刷榜”的盛况,每个人也都可以使用到更好的模型,但是模型依然不会成为每个人日常离不开的大APP,因为效率的提升有很多隐性门槛;
4、正如之前反复强调的,模型在AI真正落地中的重要性变得越来越低,生态、场景、数据、工作流,这些变得更为重要,对业务理解力和技术构架能力统一的要求变得更高;
5、几千亿规模模型的私有化部署和使用将变得越来越多,部署一个就是至少8张H100级别的GPU或者ASIC,对推理的需求看不到边界;
6、更好的大模型意味着可以有更好的小参数模型,超过上一代7B甚至13B表现的3B、2B甚至1B模型也将如雨后春笋般涌现,这将给AI手机、AI硬件的加速落地带来想象力更大的前景;
7、最后,一句话,趋势,还在变强。
Gemin 1.5的总结:
本文链接:https://hzby.vip/Llama3/16.html
Meta开源模型llama.meta.com/llama3Llama 3模型下载Llama-3官方模型权重地址Llama-8BLlama-3-70BLlama-3-400B
网友评论