【笔记】大模型业务场景流程综述

前言

大模型是指具有大规模参数和复杂计算结构的深度学习模型，这些模型通常由众多神经网络构建而成，拥有数十亿甚至数千亿个参数。本章将围绕大模型概念及特点展开，介绍模型算法的分类、典型大模型及应用、大模型训练流程和大模型业务流程。

目标

学完本课程后，您将能够：

了解大模型应用发展。

了解大模型特点和主流大模型应用。

了解大模型业务流程。

1.AI应用发展现状

AI应用发展

当前AI应用进入大模型时代，智能化水平有了质的飞跃。从自然语言处理到图像识别，从自动驾驶到医疗健康，大模型技术的应用正在不断地提高我们对AI的认知和期待。

于此同时，各类算法和技术也在日新月异地发展。深度学习、强化学习等算法和开发框架、工具的不断优化和完善，是的AI在处理复杂问题时更加高效和准确。

思考1

AI带来了哪些改变？

AI可以适用于哪些行业？

大模型时代的AI应用有哪些变化？

大模型AI应用如何开发？

未来的AI应用会走向何方？

思考2

你是一位架构师，现在你将主导团队AI应用的开发，你会如何进行开发，又会思考哪些问题？

模型那么多，选哪个？大模型还是小模型？

该为微调和推理准备多少算力？

应用上线时，模型应该怎么部署？

要是模型在回答时乱说话怎么办？

如何保证模型上线后的安全问题？

。。。。。。

AI应用发展历程

从感知理解世界（分析数据，给出建议），到生成创造世界（合成数据，创造结果）。

AI重点事件里程碑：

1956年达特茅斯会议

1997年深蓝战胜人类

2015年视觉识别超过人类

2018年文本理解超越人类

2020年AlphaFold

2022年Stable Diffusion ChatGPT

AI产业发展“三叠浪”：

符号主义

安防-智能客服-无人驾驶-。。。。。。

AIGC

AI技术里程碑：

控制论、专家系统、机器学习

深度学习、CV/NLP、AI4S

Stable Diffusion GPT-4

由小到大

算法：参数量膨胀，单位由Million到Billion

数据：训练数据增加，单个模型训练数据集可多达万亿token

算力：算力规模提升至EFLOPs

AlexNET-VGG-ResNet-ELMO-Transformer-ViT-GPT-LLaMA-GLM-…

大模型 VS 小模型

小模型	大模型
学习能力上限低	学习能力强
不同任务需要不同模型	一个模型解决多个任务
训练数据上限低	训练数据上限高
单一多模态数据	多模态能力强
Few-shot能力差	Few-shot能力强

使用AI模型获取数据中的知识 -》“知识”学习的更好

服务器/云侧AI应用

随着AI模型的不断膨胀（网络深度、参数量），所需要的算力也是成倍的增加，当前大模型大多数为云侧应用，如盘古、ChatGPT、文心一言等

优点：算力相对充足、扩展性强

缺点：数据安全问题、网络延迟、计算中心维护复杂

AI端边应用

AI边缘侧应用：摄像头、开发板等。

AI移动端应用：平板、手机等。

ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议，但如果完全在短侧运行，就能够完全避免这一问题。

相比传统的PC或者服务器，移动终端最大的挑战就是如何平衡好体验和能耗。

批注：

在部署深度学习模型时，推理效率是一个关键考虑因素。目前，AI技术运用在越来越多的边缘设备中，例如，智能手机，智能手环，VR眼镜，Atlas200等等，由于边缘设备资源的限制，我们需要考虑到模型的大小、推理的速度，并且在很多情况下还需要考虑耗电量，因此模型大小和计算效率成为一个主要考虑因素。

华为终端BG AI与智能全场景业务部总裁贾永利解释，一方面，大语言模型具备泛化能力，能够帮助手机智能助手提升理解能力。另一方面，大模型Plug-in的插件能力，可以在手机内部打通各应用之间的壁垒，借助工具拓展能力。

算力挑战

集群是必然选择

算力的“需”比“供”大200倍+

大模型算力需求指数级膨胀，750倍每2年

硬件算力供给仅线性增长，3倍每2年

万级参数时代：2015～2018

典型模型：参数：ResNet-50 2500万

计算需求：百TF级平台 1张GPU卡

网络需求：无互联网

存储需求：GB级存取-服务器硬盘

亿级参数时代：2018～2022

典型模型：参数：GPT-1 1.7亿

计算需求：PF级平台单服务器，8卡（百TF*10倍）

网络需求：节点内卡间互联

存储需求：TB级存取-服务器硬盘

万亿级参数时代：2023～

典型模型：参数：GPT-4 1-1.7万亿

计算需求：EF级平台AI集群，～万卡（PF*1000倍）

网络需求：超节点+网络互联（节点内卡间互联*100倍）

存储需求：PB级存取-高并发多级存储

集群系统创新，加速中国AI创新

批注：

大模型对于算力的需求是呈指数级膨胀式增长的，而硬件算力的供给能力是呈线性增长的，因此，目前对于算力的需求量要比硬件算力供给量高出200倍以上。

那么，同时伴随着模型参数的不断增长，在万亿参数时代下的模型训练中，不仅需要大算力，同时对于网络、存储的协同诉求也与日剧增。

所以，单机的服务器已经不能够满足万亿参数时代下的大模型训练，只有通过AI集群的方式，才能够更好的满足大规模分布式训练场景诉求。

因此，集群是大规模时代下的必然选择，集群系统的创新，也必然会加速中国AI的创新。

算力需求

根据业界论文理论推算，端到端训练AI大模型的理论时间为E_t = 8 * T * p / (n * X)。其中E_t为端到端训练理论时间，T为训练数据的token数量，P为模型参数量，n为AI硬件卡数，X为每块卡的有效算力。

参数量P（B）	训练阶段	数据量T（B tokens）	卡数n	训练时长（天）
175（e.g. GPT3）	预训练	3500	8192	49
175（e.g. GPT3）	二次训练	100	2048	5.5
65（e.g. LLaMA）	预训练	1300	2048	27
65（e.g. LLaMA）	二次训练	100	512	8
13（e.g. LLaMA）	预训练	1000	256	34
13（e.g. LLaMA）	二次训练	100	128	7

批注：

以GPT3为例，参数量175B（750亿）规模下，在预训练阶段，数据量35000亿，使用8192张卡，其训练时长为49天。

华为AI算力底座支持国内外主流开源大模型，实测性能持平业界最佳

国内唯一已完成训练千亿参数大模型的技术路线，训练效率10倍领先其他国产友商

2.大模型分类和特点

大模型分类

大语言模型发展史

2017，Transformer诞生

2018，Google推出Bert

2018，OpenAI推出GPT

2019，OpenAi推出GPT2

2020，OpenAI推出GPT3

2022，OpenAI推出ChatGPT

期间，大模型百花齐放，LLAMA、ChatGLM、盘古、星火等

2024，

批注：

2018年，GPT-1显示模型效果会随着模型变大而提升，且还有提升空间。

2019年，GPT-2开始可以完成长对话的生成，能进行问答、摘要等任务。但GPT-2的效果和人类仍有较大差距。

2020年，GPT-3将模型扩大了10倍，但正确率提升不足20%，可以写代码但不理解代码的逻辑，对其上限的担忧引发了业界讨论。

2022年，针对GPT3的瓶颈，出现了ChatGPT，ChatGPT表现出来更强大的能力，文生文AIGC，2个月内用户破亿。ChatGPT成为史上用户增长最快的app。

2023年，各种大模型如雨后春笋进入到人们的世界中。

大模型类别

大模型的分类可以从多个角度划分。

技术架构：Transformer架构、MoE等。

多模态：图片、视频、文本、语音。

功能：LLM、视觉大模型等。

行业场景：基础模型、行业模型、场景模型。

Transformer结构模型分类

基于Transformer结构，大模型又可以分为三类结构：

Encoder-only

Decoder-only

Encoder-Decoder

Encoder-only

对于Encoder-only的模型，预训练任务通常是“完形填空”。

这类模型擅长进行文本表示；

适用于做文本的分类、实体识别、关键信息抽取等任务。

批注：

例如BERT中使用的两个预训练任务就是Masked language modeling和Next sentence prediction。

Decoder-only

对于Decoder-onlu的模型，预训练任务通常是Next word prediction，这种方式又倍称为Causal language modeling（CLM，因果语言模型）。

对于Decoder，在训练时是无法看到全文的，只能看到前面的信息。因此这类模型适合做文本生成任务。

Encoder-Decoder

Encoder-Decoder架构，由于包含了encoder和decoder，所以预训练的目标通常是融合了各自的目标，但通常还会设计一些更加复杂的目标。

比如对于T5模型，会把一句话中一片区域的词都mark掉，然后让模型去预测。

Encoder-Decoder架构的模型，就适合做翻译、对话等需要根据给定输入来生成输出的任务，这跟decoder-only的模型还是有很大差别的。

混合专家模型（1）

混合专家模型（MoE）的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

与稠密模型相比，预训练速度更快

与具有相同参数数量的模型相比，具有更快的推理速度

需要大量显存，因为所有专家系统都需要加载到内存中

混合专家模型（2）

作为一种基于Transformer架构的模型，混合专家模型主要由两个关键部分组成：

稀疏MoE层：这些层代替了传统Transformer模型中的前馈网络（FFN）层。MoE层包含若干“专家”，每个专家本身是一个独立的神经网络。

门控网络或路由：这个部分用于决定哪些令牌（token）被发送到哪个专家。

批注：

在实际应用中，这些专家通常是前馈网络（FFN），但它们也可以是更复杂的网络结构，甚至可以是MoE层本身，从而形成层级式的MoE结构。

场景分类

大模型是系统化工程

ModelArts

一站式AI开发平台

L0:基础大模型（5）

自然语言、多模态、视觉、预测、科学计算

L1:行业大模型（N）

政务大模型、气象大模型、矿山大模型、电力大模型、医药大模型、金融大模型

+Workflow工作流

L2:场景模型（X）

传送带异物检测、财务异常检测、铁路TFDS检测、水泥能耗优化、PCB板质检、

卷宗审核、先导药物筛选、商品销量预测、建筑能耗优化、偏光片质检、

金融OCR、金融违约、电力巡检、海浪预测、小分子优化、空调空气质量优化

大模型分类和特点

模型参数量大

模型	参数（亿）	tokens	发布机构
GPT3	1750	3000B	OpenAI
GPT4	1.76万（猜测）	13T	OpenAI
LLaMA1	70～700	1.4T	Meta AI
LLaMA2	70～700	2T
LLaMA3	80~700	15T
GLM	60~1300	400B	智谱AI
T5	110	34B	Google
PaLM2	3400	3.6T
Gemini	100B
Stable LM2	210	2T	Stability AI

多模态融合

目标检测、图像分类等模型：图片、视频

情感分类、文本生成等模型：文本

提供模型开发、训练、推理端到端工具链，DataOps+MLOps+DevOps无缝协调，开发效率提升50%

语音识别、语音合成等模型：语音

批注：训练大模型需要大规模、高质量、多模态的数据集，通常需要从各个领域和多个数据源收集数据，这些数据可以是文本、图像、语音、视频等多种形式。

训练方式变化

传统模型：

由于参数量和所需数据量并不庞大，可以选择全参数训练。

在预训练好的模型上做迁移学习。

大模型：

参数量庞大（以Billion为单位）

海量数据（TB为单位）

当前多为预训练模型：不少工作选择使用专业领域的高质量数据在一个较强的基座模型上进行微调。

Foundation Model

Foundation Model，指在AI领域一类被广泛使用的基础模型（或称基础架构模型），是在海量数据和计算资源的基础上训练出来的、通用型较强的深度学习模型。这些模型被广泛应用于自然语言处理、计算机视觉、语音识别等领域的各种任务。

Foundation Model -》 LLM -》应用

Foundation Model特点（1）

Foundation Model的一个独有特征是其适应性。这些模型可以根据输入提示高度准确地执行各种不同的任务。一些任务包括自然语言处理（NLP）、问题回答和图像分类。

FM的规模和通用性质使其不同于传统的机器学习模型，后者通常执行特定的任务，例如分析文本中的情绪、对图像进行分类和预测趋势。

可以使用根FM作为基础模型来开发更加专用的下游应用程序。这些模型是十多年开发工作的结晶，因此它们的规模和复杂性不断增加。

批注：

例如，最早的双向EM之一BERT于2018年发布。该模型使用3.4亿个参数和16GB的训练数据集进行训练。仅仅五年后，OpenAI就在2023年使用170万亿个参数和45GB的训练数据集训练GPT-4。根据OpenAI提供的数据，自2012年以来，FM建模所需的计算能力没3.4个月翻一番。当今的FM，例如大型语言模型（LLM）Claude 2和Llama2，以及Stability AI提供的文本到图像模型Stable Diffusion，可以及时可用地执行跨越多个领域的各种任务，如撰写博客文章、生成图像、解决数学问题、参与对话和根据文档回答问题。

Foundation Model特点（2）

Foundation Model有望显著改变机器学习的生命周期。尽管目前从头开发FM要花费数百万美元，但从长远来看，它们可发挥重要作用。对于数据科学家来说，可以更快速、更经济地使用预先训练的FM开发新的机器学习应用程序，而不是从头开始训练独特的深度学习模型。

常见的FM

Transformer

BERT

GPT

CLIP

GLM

Foundation Model的缺点

基础设施要求。从头开始构建基础模型非常昂贵，需要大量资源，而且可能需要几个月的时间完成训练。

缺乏理解。尽管Foundation Model可以提供语法上和事实上正确的答案，但它们很难理解提示的上下文。此外，这些模型不具备社交或心理意识。

不可靠的答案。某些主题相关问题的答案可能不可靠，有时甚至不合适、令人即不愉快或不正确。

偏见。Foundation Model很可能提供带偏见的答案，因为模型可以从训练数据集中提取仇恨言论和不恰当的暗示。为避免这种情况，开发人员应仔细筛选训练数据，并将特定规范编码到模型中。

涌现

涌现或称创发、突现、呈展、演生，是一种现象，为许多小实体交互作用后产生了大实体，而这个实体展现了组成它的小实体所不具备的特性。

在大模型领域指当模型突破某个规模时，性能显著提升，变现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等。

一般来说，模型在100亿（10B）到1000亿（100B）参数区间，可能产生能力涌现。

批注：

复杂系统学科里已经对涌现现象做过很久的相关研究。那么，什么是“涌现现象”？当一个复杂系统由很多微小个体构成，这些微小个体凑到一起，相互作用，当数量足够多时，在宏观层面上展现出微观个体无法解释的特殊现象，就可以称之为“涌现现象”。

在哲学、系统论、科学和艺术中，当一个实体被观察到具有其所有组成部分本身没有的属性时，涌现emergence就出现了。这些属性或行为只有当各个部分在一个更广泛的整体中相互作用时才会涌现。例如，当一辆自行车和骑手互动时，平稳的向前运动就出现了，但是两个部分都不能独自产生这种行为。

涌现带来的能力

语境学习（In-context learning）：如果模型已经获得了自然语言描述的指令（包括一些任务示例），则模型给予预期输出结果，而无需额外的模型训练（Zero-shot或Few-shot learnig）。

指令遵循（Instruction following）：通过在格式化的指令数据集上fine-tuning，LLM也表现出用指令形式描述未知任务，并达到不错效果，这大大提高了模型的泛化能力，表现了模型具有理解自然语言指令的能力，寻找合适的Prompt来激发模型能力就变成了一个显性需求。

逐步推理（Step-by-step reasoning）：在LLM中表现出，可以提供一些解题步骤提示，让模型具有逐步推理的能力，这被称为思维链（CoT,Chain-of-Thought），有人认为这是从代码数据中学习到的。

思维链

思维链（Chain-of-thought,CoT）的概念是在Google的论文“Chain-of-Thought Prompting Elicts Reasoning in Large Language Models”中被首次提出。

思维链（CoT）是一种改进的提示策略，用于提高LLM在复杂推理任务重的性能，如算术推理、常识推理和符号推理。CoT没有像In-Context Learnig那样简单地用输入输出对构建提示，而是结合了中间推理步骤，这些步骤可以将最终输出引入提示。

相比于之前传统的上下文学习（即通过x1，y1，x2，y2，。。。xtest作为输入来让大模型不全输出ytest），思维链多了中间的中间的推导提示。

思维链的限制

思维链只是在一些有限的领域效果较好，如数学逻辑推理能力，其他领域提升较小

需要模型足够大。

如PaLM在扩展到540B参数时，与思维链提示结合，才表现出了先进的性能，一些小规模模型，思维链并没有太大的影响，能力提升也不会很大。

Fine-tune-CoT，利用非常大的语言模型的思维链推理能力来指导小模型解决复杂任务。

批注：

能落地到产业的模型，规模必然不会太大，思维链拆解了更多的步骤、用到更多的计算资源，相当于更加耗费脑力，很多研究机构和企业是负担不起175B参数以上的大模型。

目前，思维链只是在一些有限的领域，比如数学问题，五个常识推理基准（CommonsenseQA,StragegyQA,Date Understanding和Sports Understanding以及SayCan）上显现出作用，其他类型的任务，像是机器翻译，性能提升效果还有待评估。

通过思维链，我们还可以看到大语言模型为什么强，也为什么弱。它强在，模型规模的提高，让语义理解、符号映射、连贯文本生成等能力跃升，从而让多步骤推理的思维链成为可能，带来“智能涌现”。它弱在，即使大语言模型表现出了前所未有的能力，但思维链暴露了它，依然是鹦鹉学舌，而非真的产生了意识。

同质化

同质化，指基础模型的能力是智能的中心与核心，大模型的任何一点改进会迅速覆盖整个社区，但其缺陷也会被所有下游模型所继承。

目前大模型架构都围绕Transformer，NLP领域几乎所有的SOTA模型都是基于Transformer的大模型进化而来。

同质化可能为许多边缘领域提供更多可能性，但模型中的任何缺陷都会被所有下游模型盲目继承。由于基础模型的能力来自于它们的涌现性质，现有的基础模型难以理解，可能具有难以预料的错误模式。

3.主流大模型介绍

GPT4

GPT4是一种最先进的会话语言模型，来自各种来源的大量文本数据的训练，包括社交媒体、书籍和新闻文章。该模型能够对文本输入生成类似人类的响应，使其适用于聊天机器人和对话式人工智能系统等任务。另一方面，GPT-3是一种大规模语言模型，它已经在来自各种来源的大量文本数据上进行了训练。它能够产生类似人类的反应，可用于广泛的与语言相关的任务。

编写商业文案、对大段文字进行总结、解析非结构化文本、对事物进行分类、以及结合CODEX和DALL去做一些代码、图像创作工作

LLaMA

LLaMA模型，全称Large Language Model Meta AI，是由Meta AI公司开发的一系列大型语言模型。LLaMA共有7B、13B、33B、65B四种版本。

该模型最大的特点就是基于以较小的参数规模取得了优秀的性能。

3B、65B四种版本。其数据集来源都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现，整个训练数据集在token化之后大约包含1.4T的token。

LLaMA2

LLaMA2是LLaMA的升级版本，相较于Llama在功能上有显著升级。

LLaMA2经过更大规模的数据训练，其训练数据量比LLaMA多了40%，同时它的上下文长度也扩大了一倍。为了确保LLaMA2在实际应用中更具有帮助行和安全性，它还在一个大规模的人类偏好数据集上进行了调优，包含了超过100万个人类偏好的注释。

LLaMA2的主要优点之一是它可以免费用于研究和商业用途。

GLM

GLM（Generative Language Model）是由清华大学实验室和智谱AI共同研发的一款通用预训练开源语言模型，基于Transformer encoder架构的模型。

GLM模型通过添加二维位置编码和允许任意顺序预测空白区域，改进了空白填充预训练，从而使其在自然语言理解任务上超越了BERT和T5等模型。它不仅可以进行文本理解任务，如问答、情感分析等，还可以进行文本生成任务，如根据给定的上下文生成新的文本。

盘古（1）

鹏程·盘古ɑ是业界首个2000亿参数以中文为核心的预训练生成语言模型，是业界首个2000亿参数以中文为核心的预训练生成语言模型。

目前开源了两个版本：鹏程·盘古ɑ和鹏程·盘古增强版，并支持NPU和GPU两个版本，支持丰富的场景应用，在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出，具备较强的少样本学习的能力。

盘古（2）

主要有如下几个核心模块：

数据集：从开源数据集、common crawl、电子书等收集近80TB原始语料，构建了约1.1TB的高质量中文语料数据集、53中语种高质量单、双语数据集2TB。

基础模块：提供预训练模型库，支持常用的中文预训练模型，包括鹏程·盘古ɑ、鹏程·盘古ɑ增强版等。

应用层：支持常见的NLP应用比如多语言翻译、开放域对话等，支持预训练模型落地工具，包括模型压缩、框架移植、可持续学习，助力大模型快速落地。

Stable Diffusion

Stable Diffusion是2022年发布的深度学习文本到图像生成模型（基于扩散模型），它主要用于根据文本的描述产生详细图像。

Text encoder (+随机的初始图像信息矩阵)-> Generation Model -> Decoder

批注：

Stable Diffusion从功能上来说主要包括两方面：1）其核心功能为仅根据文本作为输入来生成的图像（text2img）；2）你也可以用它对图像根据文字描述进行修改（即输入为文本+图像）。

Stable Diffusion是一个由多个组件和模型组成的系统，而非单一的模型。当我们从模型整体的角度向模型内部观察时，可以发现，其包含一个文本理解组件用于将文本信息翻译成数字表示（numeric representation），以捕捉文本中的语义信息。

然后这些信息会被提交到图像生成器（image generator）中，它的内部也包含多个组件。图像生成器主要包括两个阶段：

1、Image information creator：该组件运行多个steps来生成图像信息，其中steps也是Stable Diffusion接口和库中参数，通常默认为50或100.图像信息创建器完全在图像信息空间（或潜空间）中运行，这一特性使得它比其他在像素空间工作的Diffusion模型运行得更快。

2、图像解码器：图像解码器根据从图像信息创建中获取的信息画出一幅画，整个过程只运行一次即可生成最终的像素图像。整个压缩过程，包括后续的解压、绘制图像都是通过自编码器完成的，将图像压缩到潜空间中，然后仅使用解码器使用压缩后的信息来重构。

不止Stable Diffusion通过去噪进行图像生成，DALL-E 2和谷歌的Image模型都是如此。

Open-Sora

Open-Sora是一个开源项目，由Colossal-AI团队率先快速开源，旨在为广大用户提供一个高效且用户友好的视频制作方案。

Open-Sora方案将复现成本降低了46%

Open-Sora提供了从数据处理到训练推理的全流程解决方案，极大地简化了视频制作流程

训练时可以直接处理任意分辨率的视频、无需缩放，不用手动调整大小。

Open-Sora生成视频：https://hpcaitech.github.io/Open-Sora/

4.大模型应用

ChatGPT

2022年11月30日，OpenAI发布ChatGPT并迅速爆火，仅仅2个月就拥有了1亿的用户。

GPT4，支持多模态

ChatGPT具备初步理解人类意图的能力，能够回答后续问题、承认错误、挑战不正确的前提以及拒绝不合适的请求。

批注：

整体技术路线上，ChatGPT在效果强大的GPT-3.5大规模语言模型（LLM,Large Language Model）基础上，引入“人工标注数据+强化学习”（RLHF,Reinforcement Learning from Human Freeback，这里的人工反馈其实就是人工标注数据）来不断Fine-tune预训练语言模型。

与GPT-3.5及InstructGPT的训练过程类似，分3个阶段：

利用GPT-3.5模型进行有监督微调；

奖励模型训练；

强化学习训练。

讯飞星火

讯飞星火：科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

多模理解：上传图片素材，大模型完成识别理解，返回关于图片的准确描述

视觉问答：围绕上传图片素材，响应用户的问题，大模型完成回答

多模生成：根据用户的描述，生成符合期望的合成音频和视频

虚拟人视频：描述期望的视频内容，整合AI虚拟人，快速生成匹配视频

多模交互、代码能力、文本生成、数学能力、语言理解、知识问答、逻辑推理

盘古大模型3.0

盘古大模型3.0是面向行业的大模型，包含L0中5类基础大模型、L1行业大模型及L2场景模型三层架构。

5大基础大模型，夯实基础能力

盘古NLP大模型：业界首个超千亿参数的中文预训练大模型

盘古CV大模型：基于海量图像、视频数据和盘古独特技术构筑的视觉基础模型

盘古多模态大模型：融合语言和视觉跨模态信息，实现图像生成、理解、视频生成等

盘古预测大模型：面向结构化数据，通过模型推荐、模型融合技术构建预测能力

盘古科学计算大模型：面向气象、医药、水务、机械等领域构建科学计算能力

重塑千行百业

加速行业智能化升级

气象用大模型实现精准天气预测

痛点：传统天气预报（HPC数值预报）速度慢。

效果：盘古气象大模型10秒给出未来七天的天气预测结果，比传统天气预报提速10000倍以上。

预测水平分辨率-20公里内，预测时间分辨率-每一小时

台风生成时间与移动轨迹的预测准确率达85%以上。

证券行业用大模型实现企业财务智能预警

痛点：人工分析耗时长、要求高。传统小模型准确度不高<80%。

效果：使用大模型预测准确率达90%，较传统机器学习模型准确率提升1%。

处罚132家命中率达100%

为企业注入新生产力

办公：

办公协同、多模态数字人

代码助手

市场报告、文案创作

生产：

自动分析决策、风险告警

生产自动化和智能化

智能生产检测

研发：

科学研究

系统仿真

空间探索、海洋地球勘探

CodeArts Snap

基于盘古研发大模型提供智能生成、智能问答和智能协同3大核心能力，通过智能化需求管理分析、新增代码开发、存量代码优化、代码质量看护、应用便捷部署等多种研发场景重塑软件开发。

https://res-video.hc-cdn.com/cloudbu-site/china/zh-cn/DevCloud-01/CodeArts%20IDE/snap/0711_3840.mp4

数字人

数字人，指以数字形式存在于数字空间中，具有拟人或真人的外貌、行为和特点的虚拟人物。

AIGC

计算机通过机器学习从现有数据中学习一个对象（物品、产品或任务）的要素，进而生成一个全新的、原创的、真是的、与原来内容相似的对象。 ——Gartner。

GAN、GLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合，催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变，多模态推动AIGC内容多边形，使得AIGC具有更通用和更强的基础能力。

AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具，中期来看会改变社会的生产关系，长期来看促使整个社会生产力发生质的突破，在这样的生产力工具、生产关系、生产力变革中，生产要素，即数据价值被极度放大。

内容生成

融合语言和视觉跨模态信息，实现图像生成、图像理解、3D生成和视频生成等应用。

大模型-》图片、音频、3D模型、视频

5.大模型训练及推理流程介绍

预训练

预训练大模型是指在超大型数据集上进行训练的深度神经网络模型，其中包含大量的参数和层级。这些模型通常使用大量的计算资源和大数据集进行训练，可以提高其性能和泛化能力。预训练大模型可以通过预先在大数据集上进行训练，来提高模型在特定任务上的表现，并减少对于任务特征依赖。

预训练流程与传统神经网络训练过程基本一样。只是因为大模型庞大的体积与数据，需要在训练时使用分布式并行技术来更好的训练。

Supervised Finetuning

选择在一个较强的基座模型上进行微调，可以在降低成本下获取某一领域效果较好的大模型。

微调方法：

lora

Prefixtuning

Adapter

Lowrankadapter

r_drop

RLHF训练步骤

在特定领域或指令和人类示范语料库上微调预训练的LLM

收集人类标注的数据集，训练一个奖励模型

使用RL（例如PPO），用此数据集和奖励模型进一步微调LLM

第一步：监督学习

人工制定训练计划（问哪些问题）

专业标注人员给出这些问题的高质量答案

专业标注人员给用这些答案对GPT3精炼，微调其模型

第二步：奖励模型

对训练模型再次提同样的问题，GPT对每个问题产生多个答案

人工对这些结果排序打分

再次将结果回馈，产生一个奖励模型

第三步：强化学习

随机抽取新的问题

训练模型给出答案

用奖励模型给输出的答案排序打分，反复训练GPT模型

奖励模型

SFT的目的只是将Pretrained Model中的知识给引导出来的一种手段，而在SFT数据有限的情况下，对模型的引导能力也相对有限。

这将导致预训练模型中原先错误或有害的知识没能在SFT数据中被纠正，从而出现有害性或幻觉的问题。

通过人类标注数据（或对模型输出结果好坏的排序），训练奖励模型，再借助于强化学习进一步优化模型。

强化学习微调

通过奖励模型作为强化学习中的评估参数，优化LLM输出结果，使得模型输出更加偏向人类喜好。

RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

GPT-3训练流程

GPT-3:基础大模型1.0

语言生成、上下文学习、世界知识

InstructGPT：指令大模型1.0

文本生成、指令微调

ChatGPT：对话大模型

对话历史、对齐人类偏好（SFT+RLHF）

第一步：监督学习

第二步：奖励模型

第三步：强化学习

推理

对于常见的生成式任务，大模型的推理流程包括两个部分：全量推理（Encode）和增量推理（Decode）。其中，全量推理是全量输入生成的中间数据，增量推理则是新生成的token进行不断迭代的过程。对于Decoder-Only结构模型，全量推理和增量推理的模型结构是一致的。

推理优化：

算子融合

多卡推理：通信优化

高性能算子替换

。。。。。。

6.大模型业务流程

场景引入

随着业务规模扩大及客户需求的日益多样化和复杂化，传统的客服模式已难以满足高效率、高质量的服务要求。智能客服以其全天候在线、快速响应、精准解答的优势，成为了企业提升客户满意度的关键工具。

大模型应用开发流程

大模型业务开发流程中并非所有步骤都是必须的，如模型预训练、量化、知识库等步骤都是可选操作。

大模型业务开发流程介绍

1 需求分析

1.1 业务场景

1.1.1 业务铜带你

1.1.2 业务价值

1.2 功能需求

2 技术选型

2.1 生产、开发环境

2.1.1 硬件资源

2.1.2 网络资源

2.1.3 开发工具

2.2 基础模型选型

2.2.1 商业/闭源模型

2.2.2 开源模型

3 数据准备

3.1 预训练数据采集

3.1.1 开源数据集

3.1.2 网络数据

3.2 微调数据

3.2.1 业务数据

3.3 数据处理

3.3.1 格式转化

3.3.2 信息抽取

4 模型训练

4.1 预训练

4.2 微调

4.2.1 垂域数据微调

4.2.2 人类对齐

4.3 评估优化

5 模型部署

5.1 模型量化

5.2 模型转换

5.3 模型部署

5.3.1 推理资源规划

5.3.2 模型安全

6 应用集成

6.1 知识库

6.1.1 向量数据库

6.1.2 RAG

6.2 工具调用

6.2.1 API调用

6.2.2 探索引擎

需求分析

业务需求：如提高客户满意度、降低人力成本等

数据：用户商品咨询、售后及购买数据

能力需求：用户意图识别、智能回复、多轮对话、低延迟

安全性：隐私数据及模型安全

硬件资源：训练、微调及推理资源

业务需求-智能客服

业务痛点：

人工客服无法满足全天候的高效率回复；

传统语言模型无法应对业务需求；

人工成本高。

业务价值：

全天候在线、快速响应、精准解答的优势。

能够迅速处理大量客户咨询，提供个性化的服务建议，从而增强客户体验，提升品牌忠诚度。

以智能客服为主、人工为辅，降低成本。

https://3ms.huawei.com/km/static/image/detail.html?fid=57370

功能需求-智能客服

功能需求：

智能问答：能够自动识别并回答客户常见问题，如订单查询、退换货政策、支付方式等。

自然语言处理：具备强大的自然语言处理能力，准确理解客户意图，并给出合适的建议。

多轮对话能力：支持与客户进行多轮对话，深入理解客户需求，提供个性化的服务。

对于智能客服来说，具备多轮对话能力，有效地利用上下文信息处理用户问题和需求即可。并不需要具备极高的智能化水平。

功能需求-智能客服

功能需求：

低延迟：系统应能在短时间内响应客户请求，确保客户体验流畅。

准确性：具有较高的识别准确率和回答准确率，降低客户等待时间和误判率。

可扩展：易于扩展和升级，以适应未来业务发展和技术变革。

稳定性：良好的稳定性和容错能力，确保在高并发场景下仍能稳定运行。

技术选型-基础模型

大模型的选型可分为商业大模型和开源大模型两种途径。

大模型厂商，成本高，效果优。

可选：盘古、通义千问等。

效果较好，成本高。

开源模型，成本低，需要具备一定的微调知识。

参数量在6B-130B不等，对话水平及硬件资源和参数量成正比。

模型	描述	参数量
LLaMA-2/3	开源，适配Ascend	7B,13B,70B
Baichuan-2	7B和13B均提供chat版本	7B,13B
ChatGLM2/3	开源中英双语对话模型	6B,130B
Bloom	语言类，开源多种参数规格	7B,176B

闭源大模型主要优势是深度结合业务，模型业务指标优越，模型微调部署和后期维护成本较低，但需要购买头部技术公司服务，一般成本较高。

开源大模型主要优势在模型脚本和权重免费获取，但需要自行完成微调部署等相关工作，技术门开较高。

技术选型-开发环境（1）

开发框架：PyTorch、MindSpore

开发工具：LangChain、Transformers、Deepspeed、MindFormers、MindRLHF等。

硬件资源：

GPU，如A100、H100等。

NPU，Ascend训练芯片。

技术选型-开发环境（2）

结合当前市场环境和生态，可选择：

PyTorch+Ascend:目前PyTorch是大模型领域使用最广泛的框架，Ascend提供torch_npu用于适配PyTorch框架，为AI应用提供昇腾AI处理器的超强算力。

MindSpore+Ascend:MindSpore对于Ascend适配性强，速度快，且MindSpore提供MindFormers、MindRLHF等一系列大模型套件，工具链完善。

PyTorch+GPU:工具链完善，学习成本低。

技术选型-模型选择

综合考虑：

快速响应：推理速度快、参数量较少

具备多轮对话能力

中文问答下效果较优

训练成本低：预训练开源模型

适配Ascend硬件环境

选择模型：

ChatGLM3-6B

数据准备-业务数据（1）

智能客服数据：

用户购买、售后、物流及商品信息数据。

收集历史客服对话数据，包括用户问题、回复和上下文信息，用于后续模型的训练和微调。

存储应用上线后的对话数据，用于优化模型。

客服场景下对话数据的实时性、多样性和敏感性，结合其他数据的存储，考虑数据存储工具：

数据库：GaussDB、PostgreSQL、MongoDB等。

数据准备-业务数据（2）

数据处理：

数据清洗：去除业务数据中的错误、重复数据。

构造对话用的微调数据集：ChatGLM-6B数据格式

数据准备-业务数据（2）

在缺乏行业数据时，可选择开源数据集。

数据集名称	描述	样本数量
KdConv	多领域驱动中文对话数据集	86K个会话
zhddline	中文对话数据集	97k个会话
NaturalConv	话题驱动中文对话数据集	20k个会话
DuRecDial	多领域多类型的对话	10.2k个对话
LCCC	中文对话数据集	272k个对话

选择开源数据集为符合业务需求：需要是中文数据集，且数据内容为对话数据样本。

模型微调

对话类大模型主要基于通用的对话语料进行微调，对客服业务相关的垂域知识了解不多。

使用采集的微调数据：历史售后数据、人工客服对话数据，进行微调。

无法收集或数据量较小的情况下，可以考虑使用开源数据集。

预训练大模型

低参微调算法：LoRA、Adapter、p-tunig

冻结指定模块

保存被训练参数：预训练ckpt、微调生成ckpt

资源需求

算力资源配置需要考虑：

对于智能客服业务：

数据量：1M；全参微调；batch_size=16，期望训练时长<1天。

训练资源：Ascend训练卡>=4。

存储、网络资源：考虑模型参数较少，可以使用单节点服务器，本次案例可以不作考虑。

推荐Atlas 800T A2:8 x Ascend NPUs。

考虑具体实现的工程优化，可减少训练资源配置。

数据量、微调算法、模型参数、时间、网络资源、资源利用率

评估指标

对训练好的模型做评估。

基础评估指标：

准确率：衡量模型正确预测的样本数占总样本数的比例。

精确率：衡量模型预测为正的样本中有多少是真正的正样本。

召回率：衡量模型样本中的正例有多少被预测正确了。

F1-score：是精确率和召回率的调和平均数，综合了精确率和召回率。

大模型评估：

GLUE和SuperGLUE：GLUE和SuperGLUE基准测试模拟了真实世界的语言处理场景，并成为了衡量模型自然语言处理能力的标准。

Adversarial Robustness Benchmarks：通过对抗样本来测试模型在面对恶意输入时的抵抗力，从而评估模型的安全性。

LLM Ethics Benchmarks：评估大模型在生成内容时是否违背社会公认的道德和伦理规范。

批注：

精确率：模型预测正例的结果中，确实是正例比例。

召回率（Recall）：针对而分类或多类别问题，精确率是指模型预测为正例中真正为正例的比例，反映了模型预测为正例的能力。（这里感觉还是没解释清楚，自己拓展深究学习吧）

模型增强

通过知识库弥补预训练大模型在某些专业领域的短板或特别强化大模型在某个细分场景下的能力。并提升事实准确性。

考虑如何将知识库信息有效地集成到模型中，以提高回复的准确性和相关性。

设计知识库的更新和维护机制，以确保知识的时效性和准确性。

pdf、.md、。。。->源数据->分词->Embedding->（问题输入检索: +）Vector Store->Prompt模板组装->LLM->输入回答

向量数据库

在垂直领域服务中，大模型虽然能回答一般性问题，但在知识深度、准确度和时效性方面有限。通过利用向量数据库结合大模型和自由知识资产，企业可以构建垂直领域的智能服务。

为智能客服的大模型提供缓存能力，可以跟踪用户的历史记录和行为习惯，从而提供个性化的服务。

可选的向量数据库：Pinecone、Qdrant、GaussDB向量数据库等。

模型部署（1）

智能客服场景涉及客户隐私，优先考虑私有化部署。

部署过程中考虑以下因素：

推理服务器资源：结合业务高峰期并发量，选择合适的计算资源。

部署卡数 = 单实例卡数 * 实例规模

业务量：1million请求/天，由智能客服为主，人工为辅完成。

考虑：高峰期1k请求/s由智能客服完成

推理资源配置：1000并发推理卡N张

N的具体数值取决于几个因素：

1、推理卡单卡每秒可生成的tokens数量，常人的阅读速度为5-6个单词/s，单卡并发量=tokens/5.5

2、系统并发策略设计

模型部署（2）

模型量化（可选）：将模型的参数或数据从高精度（如浮点数）转换为低精度（如整数）的过程，减小模型的大小、降低计算复杂度、减少存储空间需求。

可扩展性：

硬件可扩展性：在需要时能够快速增加或接入额外的计算资源。

软件可扩展性：提供API接口，方便其他应用调用智能客服服务。

部署监控系统，实时跟踪系统的运行状态和性能指标。

定期对模型进行优化和调整，以提高模型的准确率和效率。

模型推理

大模型推理的核心工作是优化模型推理，实现推理加速，其中模型推理最核心的部分是Transformer Block。

对于该场景中智能客服应用，可以使用Transformer推理加速库（Ascend Transformer Boost），进行推理优化。

该加速库用于Transformer的神经网络推理。加速库中包含了各种Transformer类模型的高度优化模块，如Encoder和Decoder.

inputs-tokenizer.encoder-Prepare_inputs(mask/ids/embeddings)-Attention Block-MLP-Normalization+LM_Head-Post Process-tokenizer.decoder-outputs

模型安全

评估模型的安全性，防止恶意输入导致模型失效或泄漏敏感信息。

防止数据投毒

恶意攻击

考虑数据的隐私性，制定适当的数据保护措施和访问控制策略。

差分隐私

数据加密

本章总结

本章首先介绍了大模型的特性集发展，业务流程。

思考题

以下可实现文本生成图片的应用有哪些？

A.ChatGPT

B.DALL-E

C.Stable diffusion

D.LLaMA2

E.ChatGLM

————————————

仅用于本人学习

来源：网络

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

知识分享

【笔记】大模型业务场景流程综述

前言

目标

目录

1.AI应用发展现状

AI应用发展

思考1

思考2

AI应用发展历程

由小到大

大模型 VS 小模型

服务器/云侧AI应用

AI端边应用

算力挑战

算力需求

华为AI算力底座支持国内外主流开源大模型，实测性能持平业界最佳

2.大模型分类和特点

大模型分类

大语言模型发展史

大模型类别

Transformer结构模型分类

Encoder-only

Decoder-only

Encoder-Decoder

混合专家模型（1）

混合专家模型（2）

场景分类

大模型分类和特点

模型参数量大

多模态融合

训练方式变化

Foundation Model

Foundation Model特点（1）

Foundation Model特点（2）

常见的FM

Foundation Model的缺点

涌现

涌现带来的能力

思维链

思维链的限制

同质化

3.主流大模型介绍

GPT4

LLaMA

LLaMA2

GLM

盘古（1）

盘古（2）

Stable Diffusion

Open-Sora

4.大模型应用

ChatGPT

讯飞星火

盘古大模型3.0

重塑千行百业

CodeArts Snap

数字人

AIGC

内容生成

5.大模型训练及推理流程介绍

预训练

Supervised Finetuning

RLHF训练步骤

奖励模型

强化学习微调

GPT-3训练流程

推理

6.大模型业务流程

场景引入

大模型应用开发流程

需求分析

业务需求-智能客服

功能需求-智能客服

功能需求-智能客服

技术选型-基础模型

技术选型-开发环境（1）

技术选型-开发环境（2）

技术选型-模型选择

数据准备-业务数据（1）

数据准备-业务数据（2）