Meta公司发布备受期待的Llama 3 开源模型（开源 GPT-4）

nidongde2024-07-02 18:39:48121

Meta公司终于发布了他们备受期待的Llama 3模型，这是一个开源模型。

实际上为我们提供了许多新的能力。这个模型的功能表现得非常出色，这在AI界是一个真正的里程碑事件。

我们看看马克·扎克伯格怎么说的，然后我们将深入探讨这次发布究竟意味着什么。

❝
好的，今天是个大日子，我们发布了Meta AI的新版本——我们的助手，你可以在我们的应用程序和设备上提出任何问题。我们的目标是构建世界领先的AI，并使其对每个人可用。今天，我们正在用Llama升级Meta AI，这是我们的新尖端AI模型，我们正在将其开源。我将在一分钟内更深入地讲解Llama 3，但最重要的是，我们相信Meta AI现在是最智能的AI助手，你可以自由使用，使Meta变得更聪明。我们还集成了来自Google和Bing的实时知识，直接嵌入到我们的答案中。我们还使Meta AI在应用程序中更容易使用。我们将其构建在WhatsApp、Instagram、Facebook和Messenger顶部的搜索框中，所以任何时候你有问题，你可以直接在那里提问。我们还建立了一个新网站meta.ai，从网络访问。我们还发布了许多独特的创作功能，Meta AI现在可以创建动画，并且现在可以创建高质量的图像，速度非常快，以至于在你输入时它实际上会实时生成并更新图像。这非常令人惊叹，你现在可以在WhatsApp或网站上查看。我们正在大规模投资，以构建领先的AI，并且负责任地开源我们的模型是我们方法的重要组成部分。技术行业已经一次又一次地表明，开源可以更快地带来更好、更安全、更可靠的产品，更快的创新和更健康的市场。除了改进Meta产品，这些模型还有潜力帮助在科学、医疗保健等领域取得进展。所以今天，我们开源了我们的第一批Llama 3模型，分别是88亿和70亿参数，它们在规模上具有最佳性能，我们很快还会有更多的发布，将带来多模态和更大的上下文窗口。我们还正在训练一个更大的密集模型，拥有超过4000亿个参数，以给你一个关于Llama 3性能的概念，这第一个8亿的发布已经几乎和最大的Llama 2模型一样强大，而这个70亿模型的版本已经在82 mlu uh领先推理和数学基准测试中。400亿参数模型目前大约是85 mlu um，但仍在训练中，所以我们预计它将在许多基准测试上处于行业领先地位。我们将写一篇博客文章，详细介绍所有这些，如果你想深入了解，同时享受Meta AI，并让我知道你的想法
——马克·扎克伯格

所以这是马克·扎克伯格的声明，老实说，这里面有很多信息需要剖析，因为这次发布的内容太多了，实际上比包括我自己在内的许多人预期的要多。

让我们来实际看看他谈到的第一件事，当然是基准测试。所以我们可以看到这里，基准测试实际上是相当令人惊讶的。

我们可以看到Meta Llama 3指令模型的性能，这些基准测试之所以令人惊讶，是因为如果我们看看这些模型，它们实际上是最先进的，这意味着这是目前在AI方面你能得到的最好的，目前没有更好的存在。

在80亿参数模型和70亿参数大小上，所以有了这个，Llama 3在开源方面领先。我认为大多数人实际上感到震惊的一件事是，如果你看看一些基准测试，我们可以看到这里这是Claude Sonet，这是Claude 3家族的大型语言模型的一部分，但它似乎已经被Meta的Llama 3超越了，这相当令人惊讶。

我们现在不知道Claude 3 Sonet究竟有多大，但一个70亿参数的大型语言模型实际上超越了许多人每天用于各种任务的最先进的模型，这确实表明这个行业目前正在不断地在谁是市场领导者方面发生震动。

在不同大小和不同价格点的基准测试上，我可以看到，对于Meta和Llama 3来说，这将是一个关键领域，因为他们能够不断地对模型进行更改和更新，并在基准测试上完全击败它们。

现在，老实说，伙计们，这是我认为没有人真正预料到的事情，因为这些模型只是开源的，主要是针对开发人员社区，虽然我们知道会有改进，甚至在一些基准测试上超越Gemini 1.5 Pro，比如MML U，显然是相当令人惊讶的。当然，当我们将其与类似大小的其他模型进行比较，比如Gemma、Google的Gemma，当然还有mistral 7B指令时，我们可以看到Llama 3在性能和总体能力方面绝对击败了这些模型。所以这是你可以看到的，现在看起来，它似乎我们正处在一个道路上，即使是像mistral这样的公司在推出大型语言模型或AI系统方面的能力也被超越了，这对你来说是相当令人惊讶的。

话虽如此，还有一些其他信息你应该知道。他们做的一件事是他们寻求优化世界场景的性能，并为此开发了一个新的高质量人类评估集。

这个评估集包含了1800个提示，涵盖了12个关键的美国使用案例，包括寻求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、扮演角色、SL Persona、开放式问题回答、推理、重写和总结。

所以他们在这里做的是，他们使用了一个新的人类评估集，我认为这真的非常重要，因为我一直说人类是这些产品的最终用户，所以他们应该为人类而优化，而不是基准测试。这就是像LM排行榜这样的东西的目标，看看哪个LLM排名最好，因为它是被真正的人类使用的，这应该是默认的基准测试，人们应该测试他们的模型，因为那是人们实际上会使用的东西。

如果某件事看起来在MLU或GSM AK上取得了伟大的成就，但人们实际上不能在日常基础上使用该模型进行某些事情，那么当然，除非它有一个非常特定的用例，我认为这将是一个向我们展示这个模型有多好的东西。

现在，如果我们看看Llama 3与人类评估的比较，人类评估他们做的一件事是他们将其测试与其他一些最先进的模型进行了比较，所以我们可以看到这里，在初始区域我们可以看到Meta Llama 3被测试与Claude sonnet相比，总的来说，大多数时候它都赢了，在人类评估中这就像我之前说的非常令人惊讶，它是52%的胜利，12.9%的平局和34%的失败，但总的来说我们可以看到，即使是mraw中等的，Meta的Llama 3，70亿参数模型在能力方面确实非常非常令人惊讶，而且总的来说，与mistral中等GPT 3.5和Meta的Llama 2相比，它越来越好，所以老实说，他们实际上做得非常出色，更加高效，并且能够获得一个比相同数量参数的模型更好的AI系统。

现在，与其他开源相比，我们还可以看到预训练模型性能也超越了这些其他开源和当然这些其他闭源模型的能力，所以我们也可以看到Llama 38亿参数与mistral和Gemma的比较，它在性能方面完全击败了它们。我们还可以看到70亿参数模型比Gemini Pro 1.0和mistral做得更好。

这实际上相当令人惊讶，考虑到MRA实际上刚刚发布了这个8时间22b模型，我不确定Meta是如何能够获得领先地位的，因为看起来MRA就像随机发布东西一样，如果你不知道mix tr/mistra是一个完全开源的AI公司。

当他们发布东西时，这是相当疯狂的，因为他们不会说好的，我们正在发布这个，他们所做的就是他们只是发布了一个下载链接，你可以继续下载，然后你必须弄清楚他们发布了什么，它有多好，然后自己基准测试它。

在模型架构方面，有一些相当有趣的事情。Llama 3使用了一个词汇量为128,000个标记的标记器，它以更高的效率编码语言，这导致模型性能显著提高。

除了训练数据，训练数据是一件相当迷人的事情，因为人们总是喜欢看到你在模型上训练了什么，Llama 3是在超过五万亿个标记上预训练的，所有这些标记都是从公开可用的来源收集的，他们声明他们的训练数据集是Llama 2所用的七倍，它包括四倍的代码，当然为了准备即将到来的多语言案例，超过5%的Llama 3预训练数据集由涵盖超过30种语言的高质量非英语数据组成。

但他们不期望这些语言的性能与英语相同，这很有道理，所以他们基本上只是用训练数据确保他们的数据集真正高质量，这就是为什么他们能够从这个模型中获得比其他类似大小的模型更多的东西。记住，正如我们一直讨论的，当我们训练模型时，数据是最重要的事情，正如我们所看到的，像Orca 2和Microsoft的F 1.5 52这样的小型模型。

当然，他实际上还谈到了一些疯狂的事情，我认为这非常迷人，那就是Meta的Llama 3实际上将是一个4000亿参数模型，这个模型目前仍在训练中，最后一个检查点是2024年4月15日，你可以看到这个预训练模型非常非常强大。

你可以看到，考虑到Meta以前没有训练过这种大小的模型，这是我们第一次看到Meta真正能做什么，与这些闭源公司相比，我认为这非常迷人。

这些大型语言模型和AI系统是如何快速且一致地进化的，因为这些大公司试图通过提供更好的服务来超越彼此，他们不断试图提高这些基准的水平。现在，这实际上在Jim Fan提供的表格中进行了比较，你可以看到，他在这里说，即将到来的Llama 3模型将标志着社区获得开源GPT 4类模型的分水岭时刻，它将改变许多研究工作和草根初创企业的计算方式。

我查看了claude 3 Opus gpt的最近模型，这是GPT 4 2024 0409，当然还有Gemini，它说Llama 3的4000亿模型仍在训练中，希望在未来几个月内变得更好，还有许多研究潜力可以解锁，预计系统上会有建设者能量的激增。所以，我们基本上可以看到的是，这基本上达到了GPT 4的水平，并且有了它，现在意味着人们有权限构建各种不同的应用程序和AI系统，他们以前不能以许多不同的方式构建，这意味着生态系统将真正从这个时刻开始进化，这就是为什么我说Llama 3的发布绝对是一件相当疯狂的事情，它基本上是开源的GP4。

我认为这将非常有趣，他们将如何用这个模型保持安全，因为你知道，通常当你开源某些东西时，有不良行为者试图调整模型，但将很有趣，看看Meta如何改变他们的方法，因为他们的模型变得更聪明，但老实说，这个表格相当令人震惊，我的意思是在MML U上它几乎超越了其他模型，GPQ它在标准上，人类评估它在标准上，当然数学基准测试它有点欠缺，但就像他们说的，它仍在训练中，这意味着这个系统可能会变得更好。

这里还有他们谈到的另一件事，这不是所有的技术问题，目前他们确实制作了一个新的网站，让你可以访问这个模型。