初始LLM

LLM 是什么?

从字面意思来讲,LLM 是 Large Language Model 这三个单词的首字母缩写,意为大语言模型。

大型语言模型(LLM)是一种基于深度学习技术的自然语言处理(NLP)工具,能理解和生成文本。通过大量语料库训练,LLM 在翻译、写作、对话等任务中展现出卓越的能力。常见的应用包括自动问答、生成文本、文本摘要等。由于其多模态特性,LLM 还可用于图像和音频处理,为多领域带来创新可能。

LLM 与 NLP 到底啥关系?

NLP 已关注的是对自然语言的理解和处理,而 LLM 则是一种强大的模型范式,用于生成和理解自然语言文本,为各种 NLP 任务提供基础和支持。

从定义上:自然语言处理(NLP)是人工智能领域的一个子领域,专注于研究和开发使计算机能够理解、处理、生成自然语言文本的技术和方法。而大型语言模型(LLM)是一类基于深度学习的模型,旨在模拟和生成自然语言文本的模型。
从目标上:NLP 的主要目标是让计算机能够像人类一样理解和处理自然语言,包括语言的语法、语义、语用等方面。而 LLM 的主要目标是通过大规模的训练数据来学习自然语言的规律,并能够生成具有语义和语法正确性的文本。

LLM 模型是怎么保证回答的准确性的呢?

总结来说,LLM 通过下面几点来保证回答的正确性:数据训练、持续学习、上下文理解、多模态输入、人工审核、领域适应性。

在 LLM 的发展过程中有哪些重要的里程碑事件?

2017年 Vaswani 等人提出了 Transformer 架构。GPT(Generative Pretrained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers)两个词中的 T 就是 Transformer 架构。Transformer 架构是一种基于自注意力机制的神经网络结构,它完全颠覆了之前以循环神经网络(RNN)为主导的序列建模范式。Transformer 架构的出现,实现了并行计算和高效的上下文捕获,极大地提高了自然语言处理的性能。可以说,先有 Transformer,后有 GPT 以及 BERT。

ChatGPT 是 GPT-3.5 的微调版本,本质上是一个通用聊天机器人。在2022年11月推出,推出后仅仅两个月,就达到月活过亿。

LLM 中的 XXB 是什么意思?

这里的 B 是 Billion 的缩写,175B就是1750亿个参数。参数数量,简单来说,就是模型在学习时用来调整自身以适应数据的那部分“旋钮”。想象一下,每个参数就像是一个可以微调的设置,模型通过调整这些参数来更好地理解和生成语言。

当我们说一个模型有1750亿个参数时,这意味着模型内部有1750亿个这样的旋钮。这个数字越大,通常意味着模型的表示能力越强,因为它可以捕捉到更复杂的数据模式。但同时,这也意味着模型需要更多的数据和计算资源来训练。

不过,要注意的是,参数多并不总是好事。如果参数过多,而训练数据不足,模型可能会过拟合,也就是说它在训练数据上表现得很好,但在未见过的数据上就不怎么样了。所以,参数数量和训练数据的平衡非常重要。

使用175B个参数进行训练需要多少资源,要训练多久?

使用1000张 NVIDIA 80GB A100 GPU(理论算力是 312 TFLOPS)显卡需要22天,花费81.6万美刀才能训练完(如有更精确的数字,欢迎指正)。

ChatGpt 的 token为什么那么贵?

ChatGpt 的 token 贵的原因除了训练模型比较耗钱外,我们向LLM发起请求时,每个请求都会在 LLM 的内部发起比较复杂的运算,这些运算对硬件的要求也很高,所以每次发起请求时都有不少的运行时成本。另外,模型的维护和优化的成本也比较高。最后,我们要考虑到 LLM 商用模型不是在做慈善,是为了要盈利的。我浅显的经济学知识告诉我 OpenAI 的 ChatGpt 模型虽说远不是垄断企业,但是也绝对不是竞争市场企业,可以大致的把 OpenAI 看成是寡头企业,再考虑到当前 ChatGpt 的良好表现,贵一些还是有贵一些的道理。不过我觉得随着我国国内 LLM 的发展,ChatGpt 是一定会降价的。

离线模型能达到在线模型的效果吗?运行离线模型需要什么样的硬件资源?

相比于在线模型,除了延迟比较小、资源消耗比较少之外,离线模型最大的特点是比较安全,不用把请求发给不受控制的 LLM。一般来说,在 Mac Book M3 上能跑的模型包括:Tiny-BERT、GPT-NEO 等模型,这些模型的参数从几百万到几千万不等。离线模型的部署方案比较成熟,每个离线模型的部署都有可以参考的文档。其实,除了这种离线模型外,鹅厂还为我们提供了更安全、功能更强大的在线模型的平台——混元一站式平台。台如其名,在这个平台上,我们可以进行数据管理、模型训练、模型调试、模型部署已经模型评测等工作。一般来说,根据业务需求可以使用一些通用或者某些垂域的模型进行微调训练,再将训练后的模型进行部署。这种方式进行训练部署的模型兼具了高安全性和高能力的特点。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容