发布blog: https://llama.meta.com/llama3/ https://ai.meta.com/blog/meta-llama-3/
模型地址:Welcome Llama 3 - Meta's new open LLM
ollama: llama3
添加图片注释,不超过 140 字(可选)
Github: GitHub - meta-llama/llama3: The official Meta Llama 3 GitHub site
添加图片注释,不超过 140 字(可选)
以下为Llama3的一些技能细节
Llama 3的目标Meta本日发布的基于文本的模型是Llama 3模型系列中的第一个。Meta在不久的将来的目标是使Llama 3具有多措辞和多模态能力,具有更长的高下文,并连续改进核心LLM功能,如推理和编码。
最前辈(State-of-the-art)的性能Meta发布的8B和70B参数Llama 3模型是对Llama 2的重大飞跃,为该规模的LLM模型建立了新的SOTA。由于预演习和后演习的改进,Meta的预演习和指令微调模型是当今8B和70B参数规模上最精良的模型。Meta的后演习程序的改进大大降落了误谢绝率,提高了对齐性,并增加了模型相应的多样性。同时在诸如推理、代码天生和指令遵照等方面大大提升了能力,使Llama 3更易于操纵。
添加图片注释,不超过 140 字(可选)
在Llama 3的开拓中,Meta开拓了一个新的高质量人类评估集。这个评估集包含1800个提示,涵盖了12个关键用例:寻求建议、头脑风暴、分类、闭合式问题回答、编码、创造性写作、提取、扮演角色/人物、开放式问题回答、推理、改写和择要。为了Llama3在此评估集上意外过度拟合,纵然Meta自己的建模团队也无法访问它。下面的图表显示了Meta在这些种别和提示中进行的人类评估的综合结果,以及对Claude Sonnet、Mistral Medium和GPT-3.5的评估。
添加图片注释,不超过 140 字(可选)
基于这个评估集的人类注释者的偏好排名突显了Meta的70B指令遵照模型在真实天下场景中比拟规模附近的竞争模型的强大性能,同时也为同规模的LLM模型建立了新的SOTA标杆。
添加图片注释,不超过 140 字(可选)
要开拓一个精良的措辞模型,Meta认为创新、规模化和简化优化是很主要的,在全体Llama 3项目中采取这一设计理念,重点关注四个关键成分:模型架构、预演习数据、预演习规模化和指令微调。
模型架构根据Meta的设计理念,Meta选择了相对标准的decoder-only架构作为Llama 3中的模型架构。与Llama 2比较,Meta进行了几个关键改进。Llama 3利用具有128K tokens的分词器,更有效地编码措辞,从而大大提高了模型的性能。为了提高Llama 3模型的推理效率,Meta在8B和70B大小的模型上都采取了分组查询把稳力(grouped query attention: GQA)。Meta利用掩码对长度为8192的序列进行模型演习,以确保自把稳力不会超过文档边界。
演习数据为了演习最佳的措辞模型,策划大型、高质量的演习数据集至关主要。Meta在预演习数据上进行了大量投资。Llama 3在超过15T标记的数据上进行了预演习,这些数据全部来自公开可用的来源。Meta的演习数据集比Llama 2利用的数据集大七倍,个中包含四倍的代码。为了准备即将到来的多措辞用例,Llama 3预演习数据集的超过5%是高质量的非英语数据,涵盖了30多种措辞。但也不要指望这些措辞的性能与英语相同。
为了确保Llama 3在最高质量的数据上进行了演习,Meta开拓了一系列数据过滤管道。这些管道包括利用启示式过滤器、NSFW过滤器、语义去严惩法和文本分类器来预测数据质量。Meta创造之前的Llama天生高质量数据的能力令人惊异,因此Meta利用Llama 2来天生了用于驱动Llama 3的文实质量分类器的演习数据。
Meta还进行了大量实验,评估了在终极的预演习数据集中稠浊来自不同来源的数据的最佳方法。这些实验使Meta能够选择一种数据稠浊办法,以确保Llama 3在包括琐事问题、STEM、编码、历史知识等用例中表现良好。
预演习规模化(Scaling up pretraining)为了有效利用Llama 3模型中的预演习数据,Meta付出了大量努力来扩展预演习规模。详细来说,Meta为下贱基准评估开拓了一系列详细的规模定律。这些规模定律使Meta能够选择最佳的数据稠浊,并在如何利用演习打算方面做出明智的决策。主要的是,规模定律使Meta能够在实际演习模型之前预测大模型在关键任务上(例如,在HumanEval基准上评估的代码天生)的性能。这有助于确保终极模型在各种用例和功能上具有强大的性能。
在开拓Llama 3的过程中,Meta对规模化行为进行了几项新的不雅观察。例如,对付8B参数模型,Chinchilla-optimal量的演习打算大约对应于200B标记的数据,Meta创造,纵然在模型在演习了两个数量级的数据后,模型性能仍旧会连续提高。Meta的8B和70B参数模型在对它们进行了多达15T标记的演习后仍旧呈对数线性提高。较大的模型可以用较少的演习打算来匹配这些较小模型的性能,但常日利用较小的模型效果更好,由于它们在推理过程中更加高效。
为了演习Meta最大的Llama 3模型,Meta结合了数据并行化、模型并行化和流水线并行化三种类型的并行化。Meta最有效的实现在同时利用16K个GPU进行演习时实现了超过400 TFLOPS/GPU的打算利用率。Meta在两个定制的24K GPU集群上进行了演习运行。为了最大化GPU的正常运行韶光,Meta开拓了一种前辈的新演习栈,该演习栈自动化了缺点检测、处理和掩护。Meta还极大地提高了硬件的可靠性和静默数据破坏检测机制,并开拓了新的可扩展存储系统,减少了检讨点和回滚的开销。这些改进使Llama 3的演习效率比较Llama 2提高了大约三倍。
指令微调为了充分发挥Meta预演习模型在谈天用例中的潜力,Meta也对Meta的指令微调方法进行了创新。Meta的后演习方法是监督微调(SFT)、谢绝采样、近端策略优化(PPO)和直接策略优化(DPO)的结合。用于SFT的提示的质量和用于PPO和DPO的偏好排名对模型的性能有巨大影响。Meta通过精心策划的数据和多轮人类注释者供应的质量担保得到了对模型质量的极大改进。
通过PPO和DPO学习偏好排名也极大地改进了Llama 3在推理和编码任务上的性能。Meta创造,如果向模型提出一个它难以回答的推理问题,模型有时会天生精确的推理轨迹:模型知道如何天生精确的答案,但不知道如何选择它。根据偏好排名进行演习使模型学会如何选择。
利用Llama 3构建Meta的愿景是使开拓职员能够定制Llama 3以支持干系用例,并使采取最佳实践并改进开放生态系统变得更加随意马虎。通过此版本,Meta供应了新的信赖和安全工具,包括更新的Llama Guard 2和Cybersec Eval 2组件,以及Code Shield的先容——用于过滤LLM天生的不屈安代码的推理韶光保护栏。
Meta还与torchtune共同开拓了Llama 3,这是用于轻松创建、微调和考试测验LLMs的新的PyTorch本机库。torchtune供应了内存高效且可hack的纯PyTorch编写的演习配方。该库已与Hugging Face、Weights&Biases和EleutherAI等盛行平台集成,乃至支持Executorch,以在各种移动和边缘设备上进行高效推理。
系统级的负任务方法(A system-level approach to responsibility)添加图片注释,不超过 140 字(可选)
Meta设计了Llama 3模型,使其在确保行业领先的负任务支配的同时最大限度地供应帮助。为实现这一目标,Meta采纳了一种新的、系统级的方法来卖力开拓和支配Llama。Meta将Llama模型视为更广泛系统的一部分,该系统将开拓职员置于驾驶员的位置。Llama模型将作为系统的根本部分,开拓职员将根据其独特的终极目标设计系统。
指令微调也在确保Meta模型安全性方面发挥了主要浸染。Meta的指令微调模型已经通过内部和外部努力进行了安全的赤色团队测试。Meta的赤色团队测试方法利用人类专家和自动化方法天生试图引发问题相应的对抗提示。例如,Meta进行了全面的测试,评估了与化学、生物、网络安全等风险领域干系的滥用风险。所有这些努力都是迭代的,并用于发布的模型的安全微调。您可以在模型卡中理解更多关于Meta的事情。
Llama Guard模型旨在成为提示和相应安全性的根本,并可以根据运用需求轻松进行微调以创建新的分类法。作为出发点,新的Llama Guard 2利用了最近宣告的MLCommons分类法,以支持这一主要领域的行业标准的涌现。此外,CyberSecEval 2通过添加丈量LLM许可其代码阐明器的滥用、进攻性网络安全功能和易受提示注入攻击的方向等方法,扩展了其前身的功能(请在Meta的技能论文中理解更多)。末了,Meta引入了Code Shield,它增加了对LLM天生的不屈安代码进行推理韶光过滤的支持。这供应了对不屈安代码建议、代码阐明器滥用预防和安全命令实行的风险的缓解。
随着天生性AI领域的发展速率,Meta相信开放式方法是将生态系统聚合在一起并减少这些潜在危害的主要路子。作为个中的一部分,Meta正在更新Meta的负任务利用指南(RUG),该指南供应了利用LLMs进行负任务开拓的全面指南。正如Meta在RUG中概述的那样,Meta建议根据适用于运用的内容指南检讨和过滤所有输入和输出。此外,许多云做事供应商供应内容审核API和其他用于负任务支配的工具,Meta鼓励开拓职员也考虑利用这些选项。
大规模支配Llama 3Llama 3很快将在所有紧张平台上供应,包括云供应商、模型API供应商等等。Llama 3将无处不在。
Meta的基准测试显示,分词器供应了更高的标记效率,与Llama 2比较,标记数减少了多达15%。此外,Group Query Attention(GQA)现在也已添加到Llama 3 8B中。因此,Meta不雅观察到,只管模型的参数比Llama 2 7B多了10亿,但改进的分词器效率和GQA有助于坚持与Llama 2 7B相称的推理效率。
要理解如何利用所有这些功能的示例,请查看Llama Recipes,个中包含了Meta所有的开源代码,可用于从微调到支配到模型评估的统统。
Llama 3的未来是什么?
Llama 3的8B和70B模型标志着Meta操持为Llama 3发布的开端。还有更多的内容等待揭晓。
添加图片注释,不超过 140 字(可选)
Meta的最大模型有超过400B参数,只管这些模型仍在演习中,开拓团队对它们的趋势感到愉快。在接下来的几个月中,Meta将向社区开放一些小规模预演习模型,以便开拓者可以在他们的运用中考试测验这些新的性能和新的功能。Meta还将在扩大Meta的研究影响力方面连续改进根本架构,并操持在多模态、多措辞等方面进行探索。Llama 3的目标是构建与专有模型相媲美的最佳开源模型,并在长期利用和支配LLM方面发挥领导浸染。