初始LLM

LLM 是什么？

从字面意思来讲，LLM 是 Large Language Model 这三个单词的首字母缩写，意为大语言模型。

大型语言模型（LLM）是一种基于深度学习技术的自然语言处理（NLP）工具，能理解和生成文本。通过大量语料库训练，LLM 在翻译、写作、对话等任务中展现出卓越的能力。常见的应用包括自动问答、生成文本、文本摘要等。由于其多模态特性，LLM 还可用于图像和音频处理，为多领域带来创新可能。

LLM 与 NLP 到底啥关系？

NLP 已关注的是对自然语言的理解和处理，而 LLM 则是一种强大的模型范式，用于生成和理解自然语言文本，为各种 NLP 任务提供基础和支持。

从定义上：自然语言处理（NLP）是人工智能领域的一个子领域，专注于研究和开发使计算机能够理解、处理、生成自然语言文本的技术和方法。而大型语言模型（LLM）是一类基于深度学习的模型，旨在模拟和生成自然语言文本的模型。
从目标上：NLP 的主要目标是让计算机能够像人类一样理解和处理自然语言，包括语言的语法、语义、语用等方面。而 LLM 的主要目标是通过大规模的训练数据来学习自然语言的规律，并能够生成具有语义和语法正确性的文本。

LLM 模型是怎么保证回答的准确性的呢？

总结来说，LLM 通过下面几点来保证回答的正确性：数据训练、持续学习、上下文理解、多模态输入、人工审核、领域适应性。

在 LLM 的发展过程中有哪些重要的里程碑事件？

2017年 Vaswani 等人提出了 Transformer 架构。GPT（Generative Pretrained Transformer）和 BERT（Bidirectional Encoder Representations from Transformers）两个词中的 T 就是 Transformer 架构。Transformer 架构是一种基于自注意力机制的神经网络结构，它完全颠覆了之前以循环神经网络（RNN）为主导的序列建模范式。Transformer 架构的出现，实现了并行计算和高效的上下文捕获，极大地提高了自然语言处理的性能。可以说，先有 Transformer，后有 GPT 以及 BERT。

ChatGPT 是 GPT-3.5 的微调版本，本质上是一个通用聊天机器人。在2022年11月推出，推出后仅仅两个月，就达到月活过亿。

LLM 中的 XXB 是什么意思？

这里的 B 是 Billion 的缩写，175B就是1750亿个参数。参数数量，简单来说，就是模型在学习时用来调整自身以适应数据的那部分“旋钮”。想象一下，每个参数就像是一个可以微调的设置，模型通过调整这些参数来更好地理解和生成语言。

当我们说一个模型有1750亿个参数时，这意味着模型内部有1750亿个这样的旋钮。这个数字越大，通常意味着模型的表示能力越强，因为它可以捕捉到更复杂的数据模式。但同时，这也意味着模型需要更多的数据和计算资源来训练。

不过，要注意的是，参数多并不总是好事。如果参数过多，而训练数据不足，模型可能会过拟合，也就是说它在训练数据上表现得很好，但在未见过的数据上就不怎么样了。所以，参数数量和训练数据的平衡非常重要。

使用175B个参数进行训练需要多少资源，要训练多久？

使用1000张 NVIDIA 80GB A100 GPU（理论算力是 312 TFLOPS）显卡需要22天，花费81.6万美刀才能训练完（如有更精确的数字，欢迎指正）。

ChatGpt 的 token为什么那么贵？

ChatGpt 的 token 贵的原因除了训练模型比较耗钱外，我们向LLM发起请求时，每个请求都会在 LLM 的内部发起比较复杂的运算，这些运算对硬件的要求也很高，所以每次发起请求时都有不少的运行时成本。另外，模型的维护和优化的成本也比较高。最后，我们要考虑到 LLM 商用模型不是在做慈善，是为了要盈利的。我浅显的经济学知识告诉我 OpenAI 的 ChatGpt 模型虽说远不是垄断企业，但是也绝对不是竞争市场企业，可以大致的把 OpenAI 看成是寡头企业，再考虑到当前 ChatGpt 的良好表现，贵一些还是有贵一些的道理。不过我觉得随着我国国内 LLM 的发展，ChatGpt 是一定会降价的。

离线模型能达到在线模型的效果吗？运行离线模型需要什么样的硬件资源？

相比于在线模型，除了延迟比较小、资源消耗比较少之外，离线模型最大的特点是比较安全，不用把请求发给不受控制的 LLM。一般来说，在 Mac Book M3 上能跑的模型包括：Tiny-BERT、GPT-NEO 等模型，这些模型的参数从几百万到几千万不等。离线模型的部署方案比较成熟，每个离线模型的部署都有可以参考的文档。其实，除了这种离线模型外，鹅厂还为我们提供了更安全、功能更强大的在线模型的平台——混元一站式平台。台如其名，在这个平台上，我们可以进行数据管理、模型训练、模型调试、模型部署已经模型评测等工作。一般来说，根据业务需求可以使用一些通用或者某些垂域的模型进行微调训练，再将训练后的模型进行部署。这种方式进行训练部署的模型兼具了高安全性和高能力的特点。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END