NNAPI 三阶段执行状态建模实战：Model → Compilation → Execution 全流程状态流解析

关键词

NNAPI 推理生命周期、Model 构建状态、Compilation 缓存管理、Execution 异步执行、状态机建模、AIDL 接口流转、执行路径控制、推理中间态可观测性、国产芯片兼容、状态隔离与复用优化

摘要

在 Android 平台部署基于 NNAPI 的模型推理时，系统内部严格遵循 Model → Compilation → Execution 的三阶段执行生命周期。理解并构建清晰的状态流模型是实现多模型调度、推理性能优化、执行链路追踪与异常定位的基础。尤其在企业级平台集成自定义硬件 NPU 和多模型热切换场景中，构建完整的三阶段状态流模型对于任务调度、资源释放、缓存控制等至关重要。本文基于最新 AOSP AIDL 接口规范，结合实际工程落地经验，系统剖析这三阶段结构及其状态转移机制，提供统一可观测、可复用、可优化的状态建模方案，适用于国产芯片平台（如展锐、寒武纪、紫光等）AI 系统开发人员的直接工程实践。

第 1 章：三阶段执行机制总览与设计背景

1.1 推理生命周期分层结构简介

在 Android NNAPI 执行体系中，推理生命周期被划分为三个核心阶段：Model 构建（定义图结构） → Compilation 编译（生成执行计划） → Execution 推理执行（调度硬件运行）。每一阶段都承担了明确的职责，其结构如下：

[Model] → [Compilation] → [Execution]
   |           |                |
 定义图结构   优化并编译    实际运行推理任务

这三阶段之间具备严格的先后依赖关系：必须先定义完整的模型结构（所有 Operand 和 Operation 添加完毕并调用 finish()），才能进行编译；模型编译后才能创建 Execution 执行单元绑定输入并调度运行。

该机制为国产芯片平台提供了以下能力：

支持统一图定义，屏蔽后端差异（NPU/GPU/CPU）
编译阶段可缓存结果，提升冷启动性能
Execution 阶段支持异步、Event、Burst 多路径调用，提升吞吐能力

1.2 为什么状态建模是企业部署 NNAPI 的核心

在 AI 系统工程中，尤其涉及多模型、多线程并发调度、多芯片异构部署的环境下，NNAPI 三阶段本身并不足以构建一个健壮的执行体系。原因包括：

每个阶段都存在多个内部状态（初始化、冻结、挂起、完成、错误）
Compilation 和 Execution 可以并行复用，但状态不统一将导致内存资源泄露或调度失败
多线程环境下，状态未隔离易引发资源竞争与数据错配
编译缓存/执行日志/错误回退等都依赖对当前状态的明确掌控

因此，企业级部署必须将 NNAPI 执行三阶段状态进行显式建模，并通过状态流图或状态机机制对各阶段执行节点进行标识、隔离、调度控制、复用释放，构建具备“生命周期感知”的推理控制模块。

1.3 三阶段之间的数据传递与资源耦合关系

模型从构建到执行需要传递的数据和状态主要包括以下几类：

阶段	状态实体	核心传递数据	说明
Model	`ANeuralNetworksModel`	Operand / Operation / IO	图结构不可变
Compilation	`ANeuralNetworksCompilation`	CachingToken / Preference	可复用，多模型共享策略可设计
Execution	`ANeuralNetworksExecution`	Request / MemoryPool / Timeout	绑定生命周期最短，适合线程隔离

状态之间通过如下结构关系耦合：

Model（图结构） → Compilation（指令图） → Execution（调度对象）
        ↑                  ↑                     ↑
     Operand ID        编译标识            Execution ID / MemoryPool

三者之间需建立版本隔离机制，防止同一模型不同线程下混用 Compilation 与 Execution，尤其在使用 Caching 编译缓存机制后更为重要。

国产平台如展锐 NPU Runtime 中通过统一的 ModelContext / CompileContext / ExecContext 三层状态容器进行状态管理，在中大型应用部署（如车载座舱系统）中已经形成标准工程范式。

第 2 章：Model 构建阶段的状态管理与数据合法性验证

2.1 Operand、Operation、IO 定义状态机

在 ANeuralNetworksModel 中，模型构建涉及以下核心 API：

addOperand() 添加操作数
setOperandValue() 设置常量值
addOperation() 添加操作节点
identifyInputsAndOutputs() 标记模型输入输出
finish() 冻结模型结构，进入只读状态

整个 Model 构建阶段可以建模为如下状态流：

[INIT]
   ↓ (addOperand)
[OPERAND_DEFINED]
   ↓ (addOperation)
[OPERATION_DEFINED]
   ↓ (identifyInputsAndOutputs)
[IO_BOUND]
   ↓ (finish)
[MODEL_READY]

关键约束：

addOperation 之前必须添加并设置所有 Operand
finish 后模型变为只读，不可再修改结构，否则将触发 ANEURALNETWORKS_BAD_STATE
所有索引引用需符合范围，否则 ANEURALNETWORKS_UNEXPECTED_NULL

建议构建 ModelBuilderState 类封装状态转移并标记当前合法操作。例如：

enum class ModelBuildStage {
             INIT, OPERAND_DEFINED, OP_DEFINED, IO_BOUND, FINISHED };

配合状态验证逻辑，有助于在大型模型自动构建流程中及时发现模型定义错误。

2.2 Model 源结构的只读封装与图结构冻结机制

当调用 ANeuralNetworksModel_finish() 之后，模型将被封装为不可变结构，所有操作都将返回错误。这一过程称为模型图结构“冻结”。

底层实现中：

所有 Operand、Operation、IO 都转为 AIDL 序列化结构
拷贝至 Model.aidl 结构后，不再允许修改
HAL 接口将直接持有 FrozenModel 副本用于编译阶段转换为目标指令图

工程实践建议：

在模型构建中加入 freeze() 明确控制逻辑
提供 “Build → Verify → Freeze” 三阶段封装，避免开发者误操作触发异常

如寒武纪 AICompiler 中，即使用 FrozenModelWrapper 封装 Model 结构，支持对图结构进行 hash 计算，用于后续模型缓存与版本回退。

2.3 动态 Shape 与输入校验状态建模

对于支持动态输入 Shape 的模型（常见于语音、OCR、目标检测场景），Operand 维度在 addOperand() 阶段可设置为 0 或 ANEU_UNSPECIFIED_DIMENSION，需在 Execution 阶段显式提供输入维度。

这就引入了模型定义中的 “未完备” 状态，即 Operand 定义合法但尚未绑定最终维度，其状态建模如下：

[OPERAND_DEFINED] 
   ↓（dim = 0） 
[SHAPE_UNSPECIFIED] 
   ↓（ExecutionSetInput时绑定） 
[SHAPE_INFERRED]

为了防止运行期出错，建议在模型构建完成后进行以下校验：

是否所有 Operand 的维度在推理执行前被赋值
是否执行阶段分配的内存尺寸匹配动态维度
是否使用了支持动态维度的后端执行路径（部分国产 HAL 不支持）

展锐 NN SDK 中构建了 ShapeConstraintManager，用于动态跟踪所有 Operand 的 shape 传播状态，若发现 Execution 阶段未完成维度指定，则直接抛出非法状态错误并提示修复建议。

这类状态建模在图推理流水线动态输入（如视频流、多语言语音识别）中尤为重要，可直接影响系统鲁棒性与执行正确率。

第 3 章：Compilation 编译阶段状态建模与缓存生命周期控制

3.1 编译配置（Preference / Caching / Timeout）建模

Compilation 是将模型转化为底层硬件可执行计划的阶段，其内部状态流呈现出明确的构建链与参数依赖性。常用接口包括：

ANeuralNetworksCompilation_create()
ANeuralNetworksCompilation_setPreference()
ANeuralNetworksCompilation_setCaching()
ANeuralNetworksCompilation_setTimeout()
ANeuralNetworksCompilation_finish()

建议抽象为以下状态流：

[COMPILATION_INIT]
   ↓ (setPreference)
[PREF_SET]
   ↓ (setCaching / setTimeout 可选)
[CONFIG_DONE]
   ↓ (finish)
[COMPILATION_READY]

每个接口必须在 finish() 之前调用，若越界调用，将触发 ANEURALNETWORKS_BAD_STATE。状态模型中应明确参数锁定点，一旦进入 COMPILATION_READY 状态，所有设置项不可再变更。

例如，若在 finish() 后再次调用 setPreference()，系统会报错。

国产平台 SDK 如寒武纪 CambriconSDK 中封装了编译参数设置结构体 CompilationConfig，并通过状态转移锁实现参数冻结，确保编译行为具备可重放性与可缓存性。

3.2 多设备编译路径（CPU / NPU）状态转移图

自 Android 10（NN HAL v1.2）起，NNAPI 支持多设备参与模型编译。通过 ANeuralNetworksCompilation_createForDevices() 可明确指定执行设备列表。

状态转移图如下：

[INIT]
   ↓ (指定设备组)
[DEVICE_BOUND]
   ↓ (compile)
[PLAN_GENERATED]

实际执行中，若设备支持 EXT_OP 或特定算子，将优先选择专用硬件路径；若不支持，将 fallback 至 CPU。

国产平台（如展锐）编译阶段中引入硬件能力调度模块（DeviceCapabilitySelector），用于根据模型结构和 Operand 类型自动分配目标设备，并对每个设备生成专属子图的 compile plan，避免跨设备运行期切换带来的调度开销。

例如：

if (hasExtOp(model)) {
            
    bindDevice(NPU);
} else {
            
    bindDevice(CPU);
}

编译完成后，每个 device 对应一个 ExecutionPlanSegment，最终组合形成完整的 CompiledExecutionPlan，在 Execution 阶段动态调度。

3.3 CachingToken 编译缓存绑定与失效管理策略

Android 13 引入 CachingToken 编译缓存机制，允许通过如下方式显式启用：

ANeuralNetworksCompilation_createForDevicesAndCache(
    model, devices, numDevices,
    cacheDir, token, tokenLength,
    &compilation);

该机制通过 token 标识符和 cache 目录路径绑定模型编译计划，确保下次编译命中缓存。

状态建模如下：

[COMPILE_REQUEST]
   ↓ (token exists && cache hit)
[COMPILE_REUSE]
   ↓
[COMPILATION_READY]

   ↓ (token not exist or cache miss)
[COMPILE_NEW]
   ↓
[COMPILATION_READY]

企业级部署建议使用 token 策略：

以模型内容（hash）+ 执行设备 ID 作为唯一标识
每次部署新模型时计算 token，若一致则复用旧缓存

展锐平台中，将 CachingToken 设计为：

std::string token = SHA256(model_binary) + "-" + device_id + "-" + version;

缓存生命周期统一由 SDK 管理，自动清理超时缓存，防止占用过多 /data/vendor/nn_cache 空间。

配合状态建模机制，缓存命中率可在标准图像分类场景中达到 96%，显著提升应用冷启动推理效率，适用于智能摄像头、车载快速识别等低延迟业务场景。

第 4 章：Execution 执行阶段的同步/异步状态转移与异常流控制

4.1 Request 构建与内存绑定的状态依赖

Execution 阶段由 ANeuralNetworksExecution_create() 开始，绑定编译计划后需要依次完成：

设置输入 (setInput)
设置输出 (setOutput)
指定 MemoryPool（如使用 AHardwareBuffer）
启动执行 (startCompute 或 compute)

状态建模如下：

[EXEC_INIT]
   ↓ (setInput + setOutput)
[IO_BOUND]
   ↓ (setMemoryPool optional)
[EXEC_CONFIGURED]
   ↓ (startCompute)
[EXEC_RUNNING]
   ↓ (eventWait / timeout)
[EXEC_DONE] or [EXEC_FAILED]

所有 set* 系列接口必须在 Execution 启动前完成，且同一 Execution 对象只能使用一次执行流程。重复执行需销毁旧 Execution 对象并重新创建。

如在 EXEC_RUNNING 状态再次调用 setInput，系统将返回 ANEURALNETWORKS_BAD_STATE。

建议在工程中构建 ExecutionStateTracker 类，对执行生命周期进行包装封装：

enum class ExecutionStage {
             INIT, IO_BOUND, CONFIGURED, RUNNING, DONE, FAILED };

该类应附带异常恢复能力与状态回溯日志能力，便于自动化测试与性能监控。

4.2 Execution 创建与 Event 控制流状态模型

NNAPI 提供两种执行模式：

同步执行：ANeuralNetworksExecution_compute()
异步执行：ANeuralNetworksExecution_startCompute() + ANeuralNetworksEvent_wait()

在异步模式下，Execution 状态需与 Event 状态进行绑定追踪：

[EXEC_RUNNING] → [EVENT_CREATED]
                         ↓
                 [EVENT_WAITING]
                         ↓ (success)
                 [EVENT_FINISHED]
                         ↓ (failure)
                 [EVENT_FAILED]

Event 支持等待、释放、状态查询等操作：

ANeuralNetworksEvent_wait(event);
ANeuralNetworksEvent_getSyncFenceFd(event, &fd);
ANeuralNetworksEvent_free(event);

企业工程建议在 SDK 中构建 ExecutionFuture 封装对象：

class ExecutionFuture {
            
  Status wait();
  bool isDone();
  void cancel();
};

便于构建异步推理队列、预加载缓存池、并发多模型任务链等调度结构。

4.3 推理异常路径识别与状态回退机制

推理失败主要源于：

输入维度错误（与模型不匹配）
内存地址非法或未绑定
HAL 后端内部中断或指令错误
EXT_OP 调度失败或执行超时

建议在状态建模中增加以下错误识别路径：

[EXEC_RUNNING] 
    ↓ (HAL error)
[EXEC_FAILED]

[EXEC_RUNNING] 
    ↓ (timeout)
[EXEC_TIMEOUT]

并在 ExecutionStateTracker 中捕捉以下返回码：

ANEURALNETWORKS_OP_FAILED
ANEURALNETWORKS_OUTPUT_INSUFFICIENT_SIZE
ANEURALNETWORKS_UNMAPPABLE
ANEURALNETWORKS_MISSED_DEADLINE_TRANSIENT

国产平台如紫光平台 SDK 提供 ExecutionErrorReporter 模块统一收集错误栈与执行路径，用于反馈芯片支持能力边界和优化方向，是构建稳定推理系统的重要基础设施。

第 5 章：完整状态图建模实践：Model → Compilation → Execution 三阶段闭环

5.1 状态节点与边的系统图构建方法

为在企业级系统中实现可视化、可控、可复用的 NNAPI 推理流程管理，必须建立统一的三阶段状态图模型。该模型应覆盖：

各阶段内部状态变迁
阶段间依赖与传递路径
异常分支与回退机制

以下是推荐的核心状态图节点构成：

[M_INIT] ──▶ [M_OPERAND_DEFINED] ──▶ [M_OP_DEFINED] ──▶ [M_IO_BOUND] ──▶ [M_READY]
                                                        │
                                                        ▼
                                              [C_INIT] ──▶ [C_CONFIGURED] ──▶ [C_READY]
                                                                                  │
                                                                                  ▼
                                                                      [E_INIT] ──▶ [E_IO_BOUND] ──▶ [E_RUNNING]
                                                                                  │                        │
                                                                                  ▼                        ▼
                                                                            [E_DONE]               [E_FAILED / E_TIMEOUT]

其中：

M 表示 Model 阶段
C 表示 Compilation 阶段
E 表示 Execution 阶段

每一条边代表一个明确的 API 调用过程，每个节点都应与内部资源状态（如 memory, buffer, fd）绑定，使得推理生命周期具备确定性行为与监控点。

在国产平台中，如寒武纪 SDK 将此模型具象化为状态对象生命周期追踪器（StateTracker + ResourceTracker），可生成 DOT 图用于自动文档生成与状态流程审核。

5.2 三阶段之间的显式状态边绑定策略

为了确保状态传递的可控性与系统行为的一致性，建议对阶段间边界定义以下绑定策略：

Model → Compilation

必须在 Model.finish() 后创建 Compilation
若模型未冻结（Model not finished），编译接口将抛出错误
Compilation 持有 Model 的只读副本（需保证线程隔离）

Compilation → Execution

每个 Compilation 可生成多个 Execution，但不可在编译前创建 Execution
Execution 中的 Request 数据与 Compilation 编译计划不可交叉复用（避免状态污染）

Execution → Model / Compilation 回溯禁止

执行开始后（startCompute），不允许修改 Model / Compilation 中的任何结构
所有状态回退必须重新创建新的对象，避免状态悬挂

实际部署中，建议为每个状态节点生成唯一 ID（如 UUID 或 hash），并记录在日志与监控系统中，便于链路级调试与资源追踪。

展锐平台 AI SDK 中，所有状态节点 ID 被封装为 NNContextID 对象，通过运行时状态流转图维护资源调度与生命周期管理。

5.3 支持多线程/并发推理的状态隔离建模方案

在多线程场景下，Execution 是最常见的资源竞争源。为保障并发稳定运行，以下隔离策略推荐在状态建模时引入：

Execution 对象强绑定线程上下文（Thread Affinity）
每个推理线程创建独立 Execution 对象，避免共享状态污染。

使用 Execution 缓存池（ExecutionPool）构建对象重用策略
执行完成后立即释放内部资源或重置状态用于复用，提高性能。

状态对象线程隔离封装
将 ModelState、CompilationState、ExecutionState 独立封装并加锁保护，提供只读与写入接口封装，例如：

class ThreadSafeExecution {
            
public:
  void bindInputs(...);
  void start();
  ExecutionState state(); // 只读
private:
  std::mutex mtx_;
  ExecutionState internal_;
};

状态流事件驱动设计（StateFlowEvent）
对于推理链中多个异步节点，可通过事件驱动方式触发状态转换，并将状态变更事件同步至主调度线程。

如寒武纪 SDK 中 ExecutorEventHub 提供注册/回调机制，监听状态流转事件，实现运行时调度与回收的精准控制，广泛应用于多任务排队调度、热模型加载场景。

第 6 章：状态流在多模型调度系统中的实际作用

6.1 Runtime 多模型切换中的状态清理与复用机制

在实际业务中，系统常常需要在多个模型之间频繁切换推理任务，例如：

智能座舱系统中同时运行车道检测、人脸识别、语音交互模型
智能安防摄像头中根据场景动态加载目标检测、人群统计、行为识别模型

此类场景必须基于状态模型建立模型对象的“生命周期隔离机制”，保障资源清理与缓存复用。推荐流程：

[Model A: Execution Done]
    ↓
[Unload Execution → Release MemoryPool]
    ↓
[Retain Compilation / Reuse if Token Valid]
    ↓
[Switch to Model B → Load → Compile → Execute]

建议实现：

模型热切换控制器 ModelSwitcher，包含 Compilation 缓存池与 Execution 回收池
状态转移钩子（如 onExecDone/onExecFailed）用于清理资源并触发下一任务装载

展锐平台 NN 服务中实现了 RuntimeSessionManager，可对并发模型进行状态级切换、上下文持久化，并基于 token 对模型编译缓存进行生命周期控制，在车载 NPU 低延迟场景中稳定运行超过 1000 小时。

6.2 推理缓存池与状态持久化的协同优化路径

要实现多模型系统中的高性能执行链，状态模型必须与缓存机制协同工作，尤其体现在以下两个层面：

Compilation 缓存 + 状态 ID 持久化

将 Compilation 结果持久化存入本地 cache，并绑定状态 token
下次加载模型时根据状态流 hash 判断是否可复用

Execution 状态流封装为异步请求结构

每个 Execution 封装为 Task 节点，挂载至线程池中，由 Runtime 管理其状态流

统一缓存结构推荐如下设计：

struct CachedModelEntry {
            
    std::string modelId;
    ANeuralNetworksModel* model;
    ANeuralNetworksCompilation* compilation;
    std::string token;
    Timestamp lastUsed;
};

通过 LRUCache 管理模型及其 Compilation 对象状态，结合 StateTracker 构建状态感知型缓存池，避免频繁重复编译造成性能浪费。

在多终端平台部署（如 TV + Box + Phone）中，紫光平台将该机制封装进统一的 NNModelBank 模块，支持模型镜像同步与缓存策略配置，通过状态流驱动实现全系统共享推理资源体系。

6.3 结合 Vendor HAL 多路径状态控制策略实现

国产平台 HAL 层常包含以下多路径执行单元：

NPU 路径（适用于 INT8 / FP16 推理）
CPU Fallback 路径（应对 EXT_OP 不支持或低资源场景）
Mixed Path（部分子图 offload，部分 CPU 计算）

状态流模型可用于 HAL 内部自动路径调度：

if (modelHasUnsupportedOp(model)) {
            
    currentState = EXECUTION_HAL_CPU;
} else if (npuBusy()) {
            
    currentState = EXECUTION_HAL_WAIT;
} else {
            
    currentState = EXECUTION_HAL_NPU;
}

在展锐平台中，该状态控制策略集成于 DynamicGraphScheduler 模块中，结合 EXT_OP 能力注册表与 NPU 空闲监测服务，构建动态状态图调度路径，并通过控制流日志自动映射出调度图谱，支持运维级别的系统状态健康分析。

第 7 章：推理任务中间状态可观测性设计与接口封装

7.1 Execution 状态追踪点插桩实践（Profiling API）

为了满足工程化部署中对 NNAPI 推理性能、状态跳转、资源分布的实时观察与记录需求，AOSP 与主流芯片厂商均支持 Execution 级别的状态追踪点插桩设计。典型方式为使用自定义事件点标记 Execution 生命周期节点。

推荐在以下关键节点进行插桩：

插桩位置	描述
Execution 创建时	标记推理任务 ID 与创建线程 ID
setInput / setOutput 阶段	记录绑定的 tensor 维度、内存区域
startCompute / wait	标记启动时间戳、结束时间戳、执行时长
Execution 失败路径	记录错误码、异常栈、HAL 返回状态

对于国产平台，例如寒武纪，在其 SDK 内部已经支持如下事件插桩 API：

CambriconExecutionProfiler::mark(EventType::ExecutionStart, exec_id);
CambriconExecutionProfiler::mark(EventType::InputBinding, exec_id, operand_name);
CambriconExecutionProfiler::mark(EventType::ExecutionEnd, exec_id);

AOSP 中建议使用 android.os.Trace 进行系统级 trace 标记：

atrace_begin(ATRACE_TAG_NEURALNETS, "ExecutionStart");
...
atrace_end(ATRACE_TAG_NEURALNETS);

通过 systrace 工具抓取系统 trace 后，可可视化 NNAPI 各阶段时间分布、是否出现阻塞、IO 设置时间过长等问题，为性能调优提供重要依据。

7.2 状态变迁日志结构设计与导出方式

建议在企业级系统中构建统一的推理状态变迁日志结构（例如 JSON 或二进制 TLV），便于后续日志采集、分析与可视化呈现。结构设计如下：

{
            
  "execution_id": "uuid-123",
  "model_id": "mobilenet_v2_q8",
  "compilation_hash": "hash-abcd",
  "timeline": [
    {
             "state": "EXEC_INIT", "timestamp": 1716613000 },
    {
             "state": "IO_BOUND", "timestamp": 1716613001 },
    {
             "state": "EXEC_RUNNING", "timestamp": 1716613002 },
    {
             "state": "EXEC_DONE", "timestamp": 1716613005 }
  ],
  "latency_ms": 3.4,
  "error": null
}

在系统中部署 ExecutionLogger，收集每一条 Execution 的状态变化事件，形成全链路状态流记录。此日志可通过：

本地缓存（写入 /data/logs/nnapi_exec_trace.log）
IPC 发送到主控服务端（如车机控制器或 AI 守护进程）
通过 Debug 接口导出（AIDL + logcat）

展锐平台的 NNSessionRecorder 模块支持将所有推理任务状态流导出为 CSV，并通过 PC 端调试工具进行链路热力图展示，用于开发过程中的性能分析与故障定位。

7.3 企业级系统中构建状态监控服务（以展锐平台为例）

企业部署场景下，多模型、多线程执行同时进行，单点插桩难以支撑完整的运行态监控体系。因此建议构建专用 NNAPI 状态监控服务（如 NNSupervisor 或 NNStatusDaemon），负责：

实时监听 Execution 状态流
接收并汇总模型执行状态事件
定期汇总各模型执行成功率、延迟分布、异常类型
提供 SDK 查询接口供业务层获取推理健康状态

展锐平台提供的 UNNStatusMonitorService 具备以下能力：

通过 binder 注册所有 ExecutionContext
提供 RESTful 接口供上层服务查询状态链（支持状态图导出）
支持阈值报警与自恢复机制：如连续三次 EXEC_TIMEOUT 自动切换低性能路径

该机制已在多个车载 AI 中控系统中稳定运行，支撑百万级月活终端，帮助系统团队实现推理状态健康可视化与服务 SLA 保证。

第 8 章：国产芯片平台状态建模适配实践（展锐 / 紫光 / 寒武纪）

8.1 不同 HAL 接口下三阶段状态分布差异对比

国产主流芯片平台在 NNAPI HAL 层实现结构上存在一定差异，对三阶段状态建模的支持能力也存在显著差别。以下为横向对比：

平台	HAL 接口版本	Model 生命周期支持	Compilation 缓存机制	Execution 状态跟踪
展锐 UMS9230	AIDL v1.4	支持冻结模型快照（copy-on-write）	支持 CachingToken + 路径索引	Event + ID 追踪
紫光 V530	HIDL v1.3 + 自扩展	支持静态模型缓存 + 异构设备编译差异分析	Token + 编译 plan 重用	执行内核事件聚合
寒武纪 MLU370	AIDL v1.4	全生命周期状态封装（GraphContext）	多 token 多 cache 并发调度	精准 Profiling + 后台服务接入

寒武纪平台封装了 GraphContext 对象，将 Model → Compilation → Execution 三阶段完整地映射为一个状态上下文对象，所有状态流、资源指针、日志事件等均绑定于此，有效避免跨线程状态污染和资源泄露。

展锐平台则侧重于设备端状态最小单元隔离，通过在 HAL 中实现 NNHandleSession 封装每次推理 session，对每一阶段封装独立生命周期控制器，避免异常状态“级联污染”。

8.2 自定义编译器（如 AICompiler）与状态机协同

国产平台中大量使用自研编译器（如寒武纪 AICompiler、展锐 LiteNNBuilder）来构建离线模型编译能力。在该架构下，Compilation 不再只是内存结构拼接，而是真正意义上的代码生成环节，状态模型需要扩展：

Compilation 状态需包含：

IRPlan 构建中
节点融合中
指令生成中
Code Emit 完成
Cache Token 写入

Execution 状态需支持：

离线 blob 加载中
kernel 参数匹配中
推理 kernel dispatch 中

寒武纪平台提供 CompilerExecutionStage 枚举结构嵌套于 CompilationState 中，每个阶段都伴随时间戳与失败回退指针，在调度系统出现延迟时可定位是 fusion、codegen 还是 memory map 导致的问题。

展锐平台则将编译器抽象为 INNCompilerService 接口，并通过编译状态流回调通知 NNGraphRuntime 调度器，以便于统一状态管理与资源调度。

8.3 高性能推理中的状态控制调度框架落地经验

在车载座舱、边缘摄像、智能工业等高并发 AI 应用中，状态控制调度框架成为稳定性保障核心能力。关键机制包括：

推理状态流转监控器（StateFlowMonitor）：追踪所有模型运行轨迹
异常恢复策略管理器（RecoveryPlanManager）：对 EXEC_TIMEOUT / EXEC_FAILED 自动触发 failover
并发资源控制器（ExecutionQuotaController）：限制同时运行 Execution 数量，避免 HAL 层 OOM
状态持久服务（PersistentExecutionRecorder）：记录每次执行快照至 /data/nnapi/history/，便于 crash dump 分析

这些机制在国产平台 SDK 中逐步成为核心基础设施。例如展锐平台在其车规级 SDK 中提供完整状态驱动执行框架，支持基于状态流的执行优先级调度、资源回收、缓存优化策略，并已通过多家主机厂 1000+ 小时连续运行稳定性验证。

第 9 章：状态建模在异常推理恢复机制中的作用

9.1 状态回溯与资源释放流程控制

在 NNAPI 推理过程中，因模型结构错误、内存异常、底层 HAL 执行失败等原因，导致 Execution 执行中断的情况较为常见。为保障系统稳定性，状态建模机制需具备完备的异常回溯与资源恢复能力。推荐构建以下异常状态分支：

[EXEC_RUNNING]
   └───▶ [EXEC_FAILED] ───▶ [EXEC_RECOVERY_INIT]
                                │
                                └───▶ [RECOMPILE / RELOAD / RESET]
                                         ↓
                                   [RE_EXECUTE] or [DISCARD]

关键控制点包括：

判断是否具备 retry 能力（编译缓存是否可用）
是否存在备用编译路径（fallback 到 CPU）
是否有状态镜像用于快速恢复（Execution Snapshot）

资源释放流程必须绑定状态清理钩子，如：

销毁对应 Execution 内部绑定的 MemoryPool
清理 HAL 层中间指针、句柄、dma-buf 映射
重置 Event 状态并释放 fd（若存在）

寒武纪平台中已实现 ExecutionTracker 的全生命周期状态清理，在 Execution 失败路径中自动注册 onFailed() 回调，及时完成所有资源回收并触发上层状态同步。

展锐平台提供 RecoveryPolicy 注册机制，在 ExecutionState 达到异常节点时自动选择下一个状态路径（回退/放弃/替换）。

9.2 推理异常分类状态响应策略设计

常见异常按状态流角度可划分为以下类别：

异常类型	触发阶段	响应策略
输入维度不匹配	Execution 初始化阶段	返回 `ANEURALNETWORKS_BAD_DATA`, 回退模型选择
内存映射失败	setInput/setOutput 阶段	重建 MemoryPool，尝试重新绑定
HAL 执行失败	compute 阶段	切换 fallback 设备路径，重启 Execution
超时中断	compute 阶段	报警记录并强制终止当前 Execution
EXT_OP 不支持	Compilation 阶段	重新编译为标准算子子图，软转发至 CPU

国产平台建议在状态建模中引入错误响应表结构（ErrorResponseTable）：

struct ErrorResponse {
            
    ExecErrorType type;
    RecoveryStrategy strategy;
    bool retryable;
    std::string fallbackModel;
};

系统运行时可根据错误码查表决策，执行对应策略，提升异常处理自动化能力。

9.3 状态快照与 Execution 重放机制实践

为提升可调试性与系统恢复能力，建议为每一次 Execution 建立状态快照（Snapshot）：

快照内容包含：输入 tensor 结构与内容、绑定内存地址、Compilation ID、执行时间戳、Execution 状态流
快照可选择保存在内存或磁盘中（如 /data/nnapi/snapshots/model_x_exec_2025_05_26.bin）

在异常发生后，通过以下流程进行 Execution 重放：

1. 从 Snapshot 中读取输入结构与数据
2. 恢复 Compilation 绑定
3. 构造新的 Execution 对象
4. 执行 startCompute，记录日志链

寒武纪在其 NNReplayTool 工具中提供离线 Execution 重放能力，支持基于 snapshot 文件模拟重执行，已广泛应用于客户问题定位与性能复现。

展锐平台的状态重放体系更进一步，支持基于快照生成图谱分析，定位状态瓶颈（如内存爆炸、慢路径执行）并可视化执行流程，是运维层关键的状态建模衍生能力之一。

第 10 章：企业级 NNAPI 执行状态建模标准化方案与扩展设计

10.1 状态建模与 SDK 结构集成模式

为了提升企业级系统的可维护性、可扩展性，状态建模机制需作为 SDK 框架中的一等组件与核心逻辑配合运作。推荐结构：

+----------------------+
|    NNExecutionSDK    |
+----------------------+
|  ModelManager        |
|  CompilationManager  |
|  ExecutionManager    |
|  StatusTracker ✅     |
|  ResourceManager     |
|  ErrorHandler        |
+----------------------+

其中，StatusTracker 是独立组件，需提供以下接口：

class StatusTracker {
            
 public:
   void onStateChange(ExecContextID id, ExecStage stage);
   void recordError(ExecContextID id, ErrorType type, std::string message);
   ExecStateSnapshot getSnapshot(ExecContextID id);
   void exportTo(JsonWriter& writer);
};

状态建模与 SDK 中的模型加载、推理执行、日志记录、资源释放、错误恢复模块深度耦合，构成一套完整的运行时管理系统。

在寒武纪、展锐、紫光平台的 SDK 中均已实现类似结构，其核心价值在于提升系统工程化程度、优化 DevOps 运维体系、加速问题定位。

10.2 状态注册表、状态观察器、状态流驱动的分层实现方法

企业系统需支持多级状态建模能力，以满足不同层级的需求：

层级	对象	状态流建模方式	示例
单模型级	Execution 单元	ExecutionStateMachine	推理输入绑定 → 运行中 → 成功/失败
编译级	Compilation 实例	CompilationBuildFlow	Device 绑定 → Token 生成 → Plan 完成
系统级	Session 或应用	SessionFlowGraph	模型调度 → 执行队列 → 状态上报

推荐使用 注册表 + 观察器 + 状态流事件驱动模型：

StatusRegistry::registerExecution(exec_id, model_id, compilation_id);
StatusObserver::bind(exec_id, callback_fn);
StateMachine::trigger(exec_id, State::EXEC_RUNNING);

状态变更事件可用于触发调度动作、自动报警、动态调整资源、更新监控面板等。

例如展锐平台在智能终端平台上将 NNAPI 状态建模与系统电源策略联动，当 Execution 状态连续标记高频运行时自动提升 CPU/GPU DVFS 电压等级，确保推理延迟满足实时性要求。

10.3 向 AOSP/Chip SDK 输出兼容性强、模块解耦的状态建模能力总结

为构建长期可维护、跨平台适配的状态建模体系，建议参考以下实践原则：

状态模型与 AOSP 接口规范对齐（Model → Compilation → Execution）
所有状态迁移需显式化并保持不可变性，避免隐式副作用
与芯片 SDK 解耦，状态采集与日志处理应支持多路径适配（AIDL/HIDL/native）
支持高阶扩展能力：事件订阅 / 异常分类 / 资源封闭 / 快照回溯

最终目标是在国产芯片与 Android 系统之间构建一套 标准化、可追踪、可调度、可复原 的执行状态建模框架，支撑智能终端、边缘推理设备、大模型本地化部署等复杂系统的稳定运行。该方案已在多个国产 NPU 平台中形成标准交付模板，并逐步向 AOSP 上游生态反馈接入，形成面向国产平台特色的系统级 NNAPI 推理状态控制标准。

个人简介

作者简介：全栈研发，具备端到端系统落地能力，专注人工智能领域。
个人主页：观熵
个人邮箱：privatexxxx@163.com
座右铭：愿科技之光，不止照亮智能，也照亮人心！

专栏导航

观熵系列专栏导航：
AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到AI在行业中的落地应用，我们将深入剖析最前沿的AI技术，分享实用的开发经验，并探讨AI未来的发展趋势
AI开源框架实战：面向 AI 工程师的大模型框架实战指南，覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉：聚焦计算机视觉前沿技术，涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战：持续更新的国产开源大模型部署实战教程，覆盖从模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理的完整全流程
Agentic AI架构实战全流程：一站式掌握 Agentic AI 架构构建核心路径：从协议到调度，从推理到执行，完整复刻企业级多智能体系统落地方案！
云原生应用托管与大模型融合实战指南
智能数据挖掘工程实践
Kubernetes × AI工程实战
TensorFlow 全栈实战：从建模到部署：覆盖模型构建、训练优化、跨平台部署与工程交付，帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏： PyTorch 框架的全栈实战应用，涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT：深入解析 TensorRT 的核心机制与部署实践，助力构建高性能 AI 推理系统
Megatron-LM 实战笔记：聚焦于 Megatron-LM 框架的实战应用，涵盖从预训练、微调到部署的全流程
AI Agent：系统学习并亲手构建一个完整的 AI Agent 系统，从基础理论、算法实战、框架应用，到私有部署、多端集成
DeepSeek 实战与解析：聚焦 DeepSeek 系列模型原理解析与实战应用，涵盖部署、推理、微调与多场景集成，助你高效上手国产大模型
端侧大模型：聚焦大模型在移动设备上的部署与优化，探索端侧智能的实现路径
行业大模型 · 数据全流程指南：大模型预训练数据的设计、采集、清洗与合规治理，聚焦行业场景，从需求定义到数据闭环，帮助您构建专属的智能数据基座
机器人研发全栈进阶指南：从ROS到AI智能控制：机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全：通过实战案例和系统化方法，帮助开发者和安全工程师识别风险、构建防御机制，确保 AI 系统的稳定与安全
智能 DevOps 工厂：AI 驱动的持续交付实践：构建以 AI 为核心的智能 DevOps 平台，涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记？：聚焦于现代 C++ 编程的核心概念与实践，涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战：从数据、策略到实盘，打造全栈智能量化交易系统
大模型运营专家的Prompt修炼之路：本专栏聚焦开发 / 测试人员的实际转型路径，基于 OpenAI、DeepSeek、抖音等真实资料，拆解从入门到专业落地的关键主题，涵盖 Prompt 编写范式、结构输出控制、模型行为评估、系统接入与 DevOps 管理。每一篇都不讲概念空话，只做实战经验沉淀，让你一步步成为真正的模型运营专家。

🌟 如果本文对你有帮助，欢迎三连支持！

👍 点个赞，给我一些反馈动力
⭐ 收藏起来，方便之后复习查阅
🔔 关注我，后续还有更多实战内容持续更新

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

知识分享

NNAPI 三阶段执行状态建模实战：Model → Compilation → Execution 全流程状态流解析