“好写作”超越LLaMA:开放式LLM的力量
尽管大型语言模型(LLM) 最近取得了进展,但许多最强大的模型只能通过付费API 获得,并且使用大量专有数据进行训练,从而限制了研究社区对这些模型的访问和再现性。这种趋势引起了人们的严重担忧,即法学硕士是否主要由少数集中团体控制,迫使其他人支付费用才能与这些模型互动。这样的情况严格阻止了大多数研究人员直接进入或提高LLM。
“[许多]法学硕士需要大量的计算资源来训练,通常使用大型专有数据集。这表明未来高性能法学硕士将主要由少数组织控制。” - 来自[5]
考虑到培训和托管法学硕士的计算负担,我们可能想知道开源这些模型是否会对研究社区有所帮助。如果我们不属于拥有大量计算资源的大型组织,我们是否能够对LLM 进行有用的研究?如果不是,也许我们注定生活在一个对法学硕士的访问和控制是集中的世界。这些模型似乎有太多的“引力”(即需要访问大量数据和计算资源),使得大多数人很难轻松地使用它们。
LLaMA 的提案(以及随后向公众泄露的内容)走向了相反的方向,即开源一组功能强大(但规模较小)的法学硕士。 LLaMA向公众发布后,我们看到了大规模的LLM开放研究浪潮。这项研究产生了多种不同的模型,其中一些可以与ChatGPT 相媲美。然而,最值得注意的是,这些模型的训练成本极其低廉(即大多数情况下不到500 美元),并且推理资源有限(即其中一些模型可以在普通Macbook 上运行!)。在这里,我们调查了一些最近提出的LLaMA 后模型,并探讨开源LLM 研究如何使该主题更容易理解。
核心概念
在上一篇文章中,我们了解了LLaMA,这是一套开源、高性能、多规模的LLM。 LLaMA 模型仅使用公共数据进行训练,使其与开源兼容并且无需访问专有数据即可复制。
但是,LLaMA 的故事并没有结束!这些模型最近成为深度学习领域的热门话题。在本概述中,我们将研究LLaMA 开展的研究,并了解这些模型为何受欢迎。首先,我们将提供有关LLaMA 的更多背景信息,然后概述本概述中需要理解的要点。
LLaMA 是如何(或者说没有?)开源的…
深度学习社区长期以来一直接受开源,一些研究领域仍然这样做(例如,参见稳定扩散)。然而,LLM 领域却截然不同,因为最流行/最强大的模型只能通过付费API 获得(例如GPT-4 [6]、Claude 和Cohere)。开源LLaMA [1] 是一组较小的高质量LLM 基础模型,它扭转了这一趋势。然而,LLaMA 并不是完全开源的……故事有点复杂。
首先,Meta 宣布了LLaMA,包括详细内容,例如深入且有用的出版物、请求访问LLaMA 的表格,以及在获得模型访问权限后使用LLaMA 进行推理和标记的简单代码库。要获得模型的访问权限,用户必须同意一系列要求,例如不将LLaMA 用于商业目的,并确保使用LLaMA 创建的任何派生模型都符合相同的许可证。然而,当这些LLaMA 模型的权重在发布后大约一周内公开发布到4chan 供任何人下载时,所有这一切都不再重要。
指令微调
我们将在本概述中看到的许多模型都基于指令微调(或简称指令调整)的概念。最初由FLAN [10] 提出,指令微调是一种训练方法,可以让语言模型更好地解决一般基于语言的任务,而不仅仅是单个任务;见上文。在实践中,这是通过根据一组“指令”微调语言模型来实现的,其中包括微调示例和正在解决的任务的描述。使用这种方法,我们可以微调语言模型,通过文本提示使用不同的任务模板来解决各种不同的任务;见下文。
目前,最流行的指令微调变体之一是根据人类或聊天机器人的对话会话示例对法学硕士进行微调。鉴于许多最近的聊天机器人专注于遵循指令和执行信息寻求对话,这些模型、它们的输出,甚至用于训练它们的数据都包含一组丰富的指令遵循示例和行为,可以直接用于指令调整。
总之,尽管大型语言模型取得了重大进展,但许多强大的模型由于其计算和数据要求而无法访问。然而,通过开源小型但强大的法学硕士(例如LLaMA),研究社区能够更广泛地参与和改进这些模型。在此过程中,指令微调等新技术的出现使这些模型更加通用和实用。这种开放的研究趋势预计将继续推动法学硕士领域的创新和普及。
自导自演。与这项工作相关的指令调优的一种形式是自引导框架[2],它通过使用LLM 生成微调指令来减轻对手动编写指令的依赖。具体来说,这个过程从一小组指令数据开始,然后迭代地i) 使用LLM 生成新数据,ii) 过滤低质量数据;见上文。该技术以最少的人工注释工作生成用于指令调整的高质量数据。
知识蒸馏
[11]中提出的知识蒸馏使用一个(大型)完全训练的神经网络作为另一个(小型)神经网络的训练信号;见上文。知识蒸馏有很多种不同的类型,但它们背后的想法是相同的。也就是说,如果我们使用i) 正常训练数据和ii) 更大、更强大的神经网络在该数据上的输出来训练神经网络,那么我们通常会得到比仅在数据上训练神经网络更好的结果。通过使用其输出作为训练目标,我们可以将一些信息从较大的网络中提取到正在训练的较小的“学生”网络中。有关知识蒸馏及其多种变体的更多信息,请查看下面的链接。
其他内容…
除了上面介绍的信息外,我们还需要对LLM及其工作原理有一个基本的了解。为了加深这种理解,请查看以下资源。
语言建模定义语言建模仅解码器Transformer 的简要概述LLM 的工作原理LLM 缩放法则LLM 中的自注意力在概述中,我们还将引用OpenAI 目录中一些特定模型的名称(例如text-davinci-003 ) 。请参阅此处提供的模型列表(以及相关描述)以与OpenAI API 一起使用。
Alpaca:遵循指令的LLaMA模型[3]
“在学术界研究指令合规性模型一直很困难,因为没有现成的模型在功能上与闭源模型接近,例如OpenAI 的text-davinci-003。” - 来自[3]
方法:为了通过SFT 创建指令跟踪LLM,我们需要i) 高质量的预训练语言模型和ii) SFT 指令跟踪数据。幸运的是,最近发布的LLaMA 为我们提供了易于访问的预训练语言模型。获取数据以遵循指令有点复杂,但实现这一点的一种方法是自我指导[2]。在Alpaca示例中,我们使用text-davinci-003通过以下方式生成跟随指令数据:
从自引导种子集开始,提供了175 个指令和输出对。法学硕士被提示使用种子集作为少量学习的上下文示例来生成更多指令。然后,使用基于HuggingFace 的训练框架对LLaMA-7B 模型进行微调。通过使用完全分片数据并行性(FSDP) 和混合精度训练技术,在8 个A100 GPU 上的微调过程减少到3 小时,成本不到100 美元。用于创建Alpaca 的代码/数据可在线获取。然而,Alpaca 的商业用途是被禁止的,因为i) LLaMA(Alpaca 所基于的)拥有非商业许可证,并且ii) OpenAI 禁止使用其模型来训练竞争的法学硕士。
与text-davinci-003类似,Alpaca的输出通常比ChatGPT的输出短。换句话说,模型的风格反映了LLM生成的用于微调的指令跟踪数据。
Vicuna:具有90% ChatGPT质量的开源聊天机器人[4]
下表提供了Vicuna 与开源法学硕士LLaMA 和Alpaca 的更全面的比较。接下来我们将介绍如何评估骆驼毛。
“随着GPT-4 的最新进展,我们想知道它的功能是否已达到类人水平,从而实现用于生成基准和性能评估的自动化评估框架。” - 来自[4]
特别是,GPT-4 用于在每个类别中生成10 个问题,并评估五个不同聊天机器人(即LLaMA-13B、Alpaca-13B、Vicuna-13B、Bard 和ChatGPT)的输出。此外,每个模型输出的质量是通过要求GPT-4 根据细节、有用性、相关性和准确性对答案的质量进行评级来判断的。尽管以这种方式评估似乎有些牵强,但GPT-4 对模型的排名相当一致,甚至解释了其推理。
根据GPT-4判断,Vicuna的输出质量相对于ChatGPT为92%;见上文。该比率是通过要求GPT-4 为每个模型的输出分配分数来实现的。然后可以通过计算所有问题的总体质量得分来评估模型之间的相对性能。这种考核方式虽然不严谨,但还是蛮有趣的,比较一致,也倒逼我们思考LLM的格局未来会如何发展。
与其他开源模型相比,我们发现GPT-4 有利于Vicuna 的输出。此外,Vicuna 在45% 的问题上生成的输出超过或匹配ChatGPT 的质量。对于一个仅需花费300 美元进行调整的模型来说,这种质量水平相当令人印象深刻!
Koala:学术研究的对话模型 [5]
“如果使用精心挑选的数据进行训练,小到足以在本地运行的模型可以捕获其较大表兄弟的大部分性能。” - 摘自[5]
当根据真实提示进行评估时,发现Koala-13B 的性能与ChatGPT 相当,甚至优于相关的Alpaca 模型。因此,Koala 的结果继续支持我们在LLaMA 之后的所有工作中看到的趋势。也就是说,我们看到,只要有正确的数据进行微调,较小的模型就可以达到令人印象深刻的质量。这样的发现可能会让我们思考:我们是否过于关注模型大小而不是数据质量?
所有这些数据都基于对话。然而,值得注意的是,某些数据集包含每个问题的多个对话或回答,并被评为好或坏。有趣的是,我们可以学习以前的技术[8],将这些信息纳入LLM的微调过程中。具体来说,这是通过条件训练来完成的,我们只需通过人类偏好标签来调节训练数据(例如,仅附加有关对话是好还是坏的文本信息);见上文。这种方法提高了性能,使我们能够使用低质量的对话进行模型训练。
Koala-distill:仅对提取的数据进行微调(即来自其他聊天机器人的对话示例) Koala-all:使用上述所有数据进行微调。
当人类从质量和正确性方面判断不同LLM的输出时,发现Koala-all经常超过Alpaca的表现,并且在许多情况下达到或超过ChatGPT的质量。此外,我们发现Koala-distill 的表现实际上比Koala-all 更好。这有点违反直觉,因为Koala-distill 的微调数据集很小(即只是来自ChatGPT 的示例对话),但它告诉我们用于微调的数据的类型和质量非常重要。也就是说,使用更大、更好的法学硕士生成的对话进行微调是非常有效的。
进一步发展…
虽然LLaMA 最近才被提出,但羊驼毛、骆马毛和考拉并不是LLaMA 启用(或启发)的唯一引人注目的模型。下面我们可以看到其他最近发布的开源语言模型的列表。
ChatLLaMA:使用LLaMA、您自己的数据和尽可能少的计算来制作ChatGPT 的自定义版本。 FreedomGPT:基于Alpaca 的开源对话聊天机器人(强调非审查)。 StackLLaMA:提供基于RLHF 的微调的开放实现和讨论,以生成强大的聊天机器人(特别是使用LLaMA 作为起点)。 GPT4All:基于LLaMA 和GPT-J 的开源LLM 培训演示、数据和代码(具有Apache-2.0 许可证!)。 Baize:基于LLaMA 的开源聊天机器人,使用LoRA(一种参数高效的微调方法)进行微调。 Galpaca:Galacica(一种科学语言模型)的一个版本,已在与Alpaca 相同的数据集上进行了微调。 Dolly 2.0:该模型并非基于LLaMA,而是一个开源聊天机器人,经过与ChatGPT 类似的指导进行了微调,可用于商业用途。 Open Assistant:一个开源聊天机器人(相当于ChatGPT),可以理解任务、与第三方系统交互并检索信息。
除了各种提出的模型之外,LLM的研究和使用也因LLaMA而变得更加方便。 LLaMA-13B 已经可以使用单个GPU 运行,但现在我们甚至可以在本地执行此操作(例如在Macbook 上)!
GPTQ-4-LLaMA:LLaMA 的4 位量化版本。 LLaMA.cpp:使用4 位量化的多个开源LLM 的推理,可以在本地托管(例如在Macbook 上)。看来LLM 很快就会变得比以往任何时候都更容易获得。
总结
从这项工作中我们可以得出的要点是:
LLaMA 启发了许多开源LLM 研究。因为有了LLaMA,LLM的研究/使用变得更加方便。如果您一个月前告诉我,我可以在我的Macbook 上运行LLM,其性能与ChatGPT 相当,我不会相信。这是激动人心的时刻,我很高兴能成为如此出色的社区的一小部分!下面列出了一些基本点。
LLM适合所有人。如果我们之前对此持怀疑态度,那么现在我们知道研究界确实可以对法学硕士进行有价值的研究。几周前,我们大多数人都认为由于极端的数据和计算要求,LLM 并不容易获得。然而,我们现在可以花几百美元训练ChatGPT 质量模型(或至少接近它们),甚至使用这些模型在我们的笔记本电脑上进行对话!
较小的型号就足够了吗?长期以来,模型大小(以及大型预训练数据集)一直是高性能LLM 的重要组成部分。然而,像Koala 和Vicuna 这样的小型法学硕士实际上可以表现得很好(在某些情况下甚至可以与ChatGPT 等强大的法学硕士相媲美)。这些发现凸显了数据质量的重要性。在我们所看到的工作中,最有效的技术倾向于使用较大的法学硕士的输出作为训练数据,这表明知识蒸馏可能是创建小型但强大的法学硕士的重要组成部分。
它在商业上可行吗?尽管这些技术很酷,但将它们投入商业应用却很困难。例如,OpenAI禁止使用ChatGPT(或任何其他API模型)来训练竞争模型,从而阻止了OpenAI基于API的知识蒸馏方法。此外,甚至LLaMA 本身也禁止商业用途。因此,像Alpaca、Koala和Vicuna这样的模型仅从研究的角度来看是有趣的,它们的方法不能用于任何商业模型。然而,通过Lit-LLaMA 等提案,这些模型的商业可行版本可能会慢慢变得可用。
参考文献
[1] Touvron, Hugo 等人。 “Llama: 开放高效的基础语言模型。” arXiv 预印本arXiv:2302.13971 (2023)。
[2] 王一中,等 “Self-Instruct: 将语言模型与自行生成的指令对齐。” arXiv 预印本arXiv:2212.10560 (2022)。
[3]陶里,罗汉等人。 “Stanford Alpaca: 一个遵循指令的LLaMA 模型。” (2023)。
[4]蒋伟林等。 “Vicuna: 一款开源聊天机器人,以90%* ChatGPT 质量给GPT-4 留下深刻印象。” (2023)。
[5] 耿新阳等. “Koala: 学术研究的对话模型。” (2023)。
[6]开放人工智能(2023)。 “GPT-4 技术报告。” ArXiv,abs/2303.08774。
[7] 郭碧阳, 等. “ChatGPT 与人类专家有多接近?”比较语料库、评估和检测。 arXiv 预印本arXiv:2301.07597 (2023)。
[8] 刘浩等. “事后诸葛亮使语言模型与反馈保持一致。” arXiv 预印本arXiv:2302.02676 (2023)
[9] 欧阳龙,等。 “训练语言模型遵循人类反馈的指令。”神经信息处理系统的进展35 (2022): 27730-27744。
[10] 魏杰森等人。 “经过微调的语言模型是零样本学习者。” arXiv 预印本arXiv:2109.01652 (2021)。
用户评论
这款游戏简直是太震撼了!在所有我玩过的角色扮演游戏中,没有其他能与之媲美。开放式的世界架构和基于LLM的强大故事驱动的体验让人难以置信。
有11位网友表示赞同!
对于喜欢深度探索细节和沉浸式故事剧情的玩家来说,这款开放世界游戏是一个真正的宝藏。Llama平台提升了它的叙述技巧和交互性,让人耳目一新。
有18位网友表示赞同!
如果寻找一个能够提供复杂决策,并且在游戏中每个选择都深刻影响故事走向的游戏,《超越LLaMA》绝对是不容错过的选择。开放式环境是其最大的亮点之一。
有14位网友表示赞同!
这款游戏的最大惊喜在于它的AI集成技术,它不仅仅是一个游戏,更像是一个真实世界的故事体验,玩家的每一个行动都被精心设计的角色和环境所响应。
有7位网友表示赞同!
《超越LLaMA:开放式LLM的力量》是一款在现代游戏中创新了角色交互模式的游戏。利用人工智能LLM创造出的这个世界,既富有挑战性又充满乐趣。
有17位网友表示赞同!
这款游戏的AI系统与游戏玩法无缝结合,使得每一次探索都充满了惊喜和未知。尤其是在解决谜题和进行选择时,我感觉到了前所未有的沉浸感。
有14位网友表示赞同!
"超越LLaMA"中的开放式世界为玩家提供了真正的自由度,并且通过Llama的智能架构,每个决定都能看到长期的影响,带来深度和复杂性。
有5位网友表示赞同!
作为一款深度和互动性并重的游戏,《超越LLaMA:开放式LLM的力量》展现了游戏开发者在利用人工智能提升玩家体验上的一次大胆尝试。这样的技术创新真是太酷了!
有20位网友表示赞同!
从第一分钟开始,我就被这款游戏的剧情和环境深深吸引。它能让你感觉到自己不仅仅是一个角色,而是在一个由AI驱动的世界中真正存在。
有11位网友表示赞同!
"超越LLaMA"不仅在视觉效果上令人惊叹,在叙事层面上也突破了传统界限,通过与基于Llama平台的游戏内容互动,玩家可以对剧情产生深远的影响。
有13位网友表示赞同!
对于热衷于探索和发现未知的玩家来说,这款游戏提供了无尽的乐趣。每个角落都有故事等待着被发现,而你的选择将彻底改变故事的发展轨迹。
有9位网友表示赞同!
"超越LLaMA:开放式LLM的力量"不仅仅是关于游戏性的问题,更是一个关于角色成长和自我探索的故事。通过AI驱动的世界,玩家能够体验到真正的沉浸式体验。
有18位网友表示赞同!
这款游戏的成功在于如何将AI与游戏内容完美融合,使得每一次游玩都成为独一无二的冒险之旅。无论是故事情节还是互动反馈,都是精心设计的杰作。
有10位网友表示赞同!
"超越LLaMA"的游戏体验就像打开了一个全新的世界大门,每个NPC的角色和环境的交互都有可能引导玩家走向不同的结局。这是AI在游戏领域的真正革新。
有13位网友表示赞同!
在"超越LLaMA:开放式LLM的力量"中,Llama智能平台赋予了游戏一个充满活力的灵魂。每一个小决定都至关重要,影响着游戏世界及其居民的命运。
有16位网友表示赞同!
"超越LLaMA"让我见证了科技和艺术的完美结合,它不仅仅是一款游戏,更是一次深入探索未来世界的旅程。AI技术在这个游戏中得到了极好的应用和发展。
有6位网友表示赞同!
这款游戏为玩家提供了一个充满可能性的游戏环境,通过与LAMA系统互动,我能够直接感知到我的选择对故事情节和角色发展产生的影响,带来强烈的参与感和满足感。
有5位网友表示赞同!
在探索"超越LLaMA:开放式LLM的力量"时,你将体验到AI带来的游戏世界的演变。它不仅仅是一个静态的游戏环境,而是充满动态生命力的生态系统。
有15位网友表示赞同!