如何为国产 NPU 定制 AOSP 驱动并集成 NNAPI HAL 模块：内核模块开发、HAL 接口对接与系统集成实战指南

关键词

国产 NPU、AOSP 驱动开发、NNAPI HAL、HIDL、AIDL、设备树配置、Binder 通信、SoC SDK 集成、神经网络加速器、Android 驱动开发、CTS 合规

摘要

在构建面向国产 NPU 的 Android 系统支持时，AOSP 驱动与 NNAPI HAL 的完整集成是芯片平台进入 AI 应用生态的核心环节。驱动模块不仅需适配 Linux 内核，还需与 Android 上层的 NNAPI Runtime、HAL 接口、CTS 测试框架保持一致性，并实现完整的算子支持、性能调度与资源隔离。本篇文章从底层内核驱动开发出发，逐步讲解如何构建 NPU 设备节点、注册 SoC 专用 runtime、实现 HIDL/AIDL NNAPI HAL 接口，以及如何完成与 Android 系统的融合部署与调试验证。内容基于寒武纪、瑞芯微、地平线等平台公开架构与 2025 年最新实战案例，聚焦真实可复现路径，助力国产芯片厂商构建完整 AI 支撑平台。

第1章：国产 NPU 架构概览与驱动集成路径分析

在 Android 平台集成国产 NPU，首先需要理解其硬件架构、调度模式与执行特性，以便确定驱动层设计与 HAL 层接口对接的核心路径。目前主流国产 NPU 如寒武纪 MLU、瑞芯微 RKNN、地平线 BPU、黑芝麻 A1000、启英泰伦 CV182x 系列，基本遵循统一的软硬件接口模型：内核模块负责底层资源控制与任务队列管理，用户态 runtime 提供模型编译、张量转换与执行链管理，NNAPI HAL 层则封装为 Android 系统提供统一接口。

1.1 NPU 硬件架构与运行原理概述

NPU 通常具备以下特征：

专用执行单元（MAC 数量）：如 2TOPS/4TOPS/8TOPS 等，对应不同型号硬件规格；
多引擎并发设计：支持多路模型同时运行（如寒武纪支持双 Pipeline 并行调度）；
内置 SRAM 与 DMA 资源调度器：确保高带宽张量流转；
独立中断系统：执行完成由 IRQ 通知 host 层处理。

运行原理流程：

模型加载 → 权重编译为中间指令集（IR/BIN） → 输入数据准备 → NPU 任务提交 → 等待中断通知 → 输出获取

上述流程涉及驱动调用、内存映射、任务队列管理、中断处理、异步通知等多个内核级别功能模块。

1.2 Android SoC 架构下的 NPU 系统集成位置

在 Android BSP 架构中，NPU 模块需集成于以下路径：

内核空间：通过 platform_driver 注册 /dev/npuX 设备，供用户态访问；
用户空间：提供 libnpu.so 等 runtime 动态库供 HAL 或应用层使用；
HAL 层（NNAPI HAL）：通过 HIDL 或 AIDL 接口注册到 NNAPI Runtime；
系统空间：通过 AOSP init.rc、vintf/manifest.xml 进行服务声明与自动注册。

系统集成核心组件关系如下：

NNAPI Runtime (libneuralnetworks.so)
        │
        ▼
NNAPI HAL 接口 (HIDL/AIDL)
        │
        ▼
libnpu.so（用户态 runtime SDK）
        │
        ▼
内核模块 /dev/npuX

国产芯片厂商需完成从设备节点构建、驱动注册、用户态接口封装、HAL 模块注册到系统层对接的完整链路开发，并满足 Google CTS/VTS 对接口行为的验证要求。

第2章：AOSP 下 NPU 设备树与驱动注册流程详解

设备树（Device Tree）是 Linux 系统在启动时用于识别硬件平台资源配置的重要机制。对于国产 NPU 驱动，在 AOSP 集成流程中，首先需要通过设备树定义硬件资源、配置中断/内存/寄存器区域，并通过 platform_driver 注册到内核，再实现 probe 函数进行初始化。

2.1 DTS 中设备节点配置与匹配方式

以 RK3588 平台集成 RKNN 驱动为例，典型 DTS 节点如下：

rknpu: npu@fdd60000 {
    compatible = "rockchip,rknpu";
    reg = <0x0 0xfdd60000 0x0 0x10000>;
    interrupts = <GIC_SPI 100 IRQ_TYPE_LEVEL_HIGH>;
    power-domains = <&power RK3588_PD_NPU>;
    clocks = <&cru ACLK_NPU>, <&cru HCLK_NPU>;
    clock-names = "aclk", "hclk";
    status = "okay";
};

关键字段说明：

compatible：用于匹配驱动模块中定义的 of_device_id；
reg：寄存器基地址与大小，供 ioremap 使用；
interrupts：IRQ 定义，用于中断注册；
power-domains/clocks：与 DVFS 控制逻辑关联，影响功耗管理；
status：设置为 "okay" 才能启用此设备节点。

2.2 platform_driver 注册流程与 probe 初始化逻辑

驱动模块中定义 platform_driver 实现如下：

static const struct of_device_id npu_of_match[] = {
            
    {
             .compatible = "rockchip,rknpu", },
    {
            },
};

static struct platform_driver npu_driver = {
            
    .driver = {
            
        .name = "rknpu",
        .of_match_table = npu_of_match,
    },
    .probe = npu_probe,
    .remove = npu_remove,
};

在 npu_probe() 中完成以下操作：

寄存器映射：

np->regs = devm_ioremap_resource(&pdev->dev, res);

中断注册：

devm_request_irq(&pdev->dev, irq, npu_irq_handler, 0, "npu", np);

DMA 初始化：

dma_set_mask_and_coherent(&pdev->dev, DMA_BIT_MASK(32));

字符设备注册：

cdev_init(&np->cdev, &npu_fops);
register_chrdev_region(...);

电源管理 & 时钟控制绑定：

np->aclk = devm_clk_get(&pdev->dev, "aclk");
clk_prepare_enable(np->aclk);

初始化成功后 /dev/npu0 设备节点将自动出现在系统中，供 HAL 层和用户态 runtime 使用。

调试建议：

使用 dmesg | grep npu 检查驱动加载情况；
使用 cat /proc/interrupts 确认中断响应注册成功；
使用 ls /sys/class/npu/ 查看资源是否初始化完成。

完成设备树绑定与 platform_driver 注册后，NPU 核心驱动模块已准备就绪，下一步将进入 IOCTL 接口封装与 runtime 用户态库构建阶段，确保上层能够通过 HAL 或 SoC SDK 正确调度底层资源。

第3章：内核模块开发实战：设备管理、IOCTL 与上下文隔离实现

NPU 驱动核心模块不仅要完成设备资源初始化，还需提供标准的字符设备接口，供用户态 runtime 调用，包括任务提交、内存映射、中断等待等功能。其核心技术点在于 IOCTL 命令结构定义、执行上下文多任务隔离与资源生命周期管理。

3.1 NPU runtime 控制接口设计原则

驱动需支持如下典型控制操作：

功能类别	控制命令示例	描述
模型管理	NPU_IOCTL_LOAD_MODEL	将模型 BIN/IR 加载到设备
内存分配	NPU_IOCTL_ALLOC_MEM	分配物理内存用于输入输出张量
推理任务提交	NPU_IOCTL_SUBMIT_TASK	提交执行图与输入数据到任务队列
等待结果	NPU_IOCTL_WAIT_COMPLETE	阻塞等待中断并返回结果状态
信息查询	NPU_IOCTL_QUERY_CAPABILITY	查询硬件 TOPS、支持精度等参数

示例 IOCTL 命令定义：

#define NPU_IOCTL_MAGIC 'N'
#define NPU_IOCTL_LOAD_MODEL _IOW(NPU_IOCTL_MAGIC, 1, struct npu_model)
#define NPU_IOCTL_SUBMIT_TASK _IOW(NPU_IOCTL_MAGIC, 2, struct npu_task)
#define NPU_IOCTL_WAIT_COMPLETE _IOR(NPU_IOCTL_MAGIC, 3, int)

每个命令配合结构体使用：

struct npu_model {
            
    void __user *model_data;
    uint32_t size;
    uint32_t model_id;
};

struct npu_task {
            
    uint32_t model_id;
    void __user *input_addr;
    void __user *output_addr;
    uint32_t input_size;
    uint32_t output_size;
};

3.2 IOCTL 实现函数与主入口

驱动中通过 file_operations 接口提供统一入口：

static long npu_ioctl(struct file *filp, unsigned int cmd, unsigned long arg) {
            
    switch (cmd) {
            
    case NPU_IOCTL_LOAD_MODEL:
        return npu_load_model((void __user *)arg);
    case NPU_IOCTL_SUBMIT_TASK:
        return npu_submit_task((void __user *)arg);
    case NPU_IOCTL_WAIT_COMPLETE:
        return npu_wait_irq(filp);
    default:
        return -ENOTTY;
    }
}

该实现需严格进行：

用户地址访问边界检查（使用 copy_from_user()）；
输入结构体合法性判断；
所有指针成员需判断是否 NULL 或越界。

为了保障高并发执行能力，建议每个任务使用独立上下文：

struct npu_context {
            
    struct list_head task_queue;
    spinlock_t lock;
    wait_queue_head_t wait;
    bool irq_triggered;
};

该结构可绑定至 file->private_data 实现每个文件描述符独立任务空间。

3.3 中断处理与资源释放机制

中断注册与回调处理：

irqreturn_t npu_irq_handler(int irq, void *dev_id) {
            
    struct npu_device *nd = dev_id;
    nd->irq_triggered = true;
    wake_up_interruptible(&nd->wait);
    return IRQ_HANDLED;
}

等待机制：

wait_event_interruptible_timeout(nd->wait, nd->irq_triggered, msecs_to_jiffies(100));

资源释放：

static int npu_release(struct inode *inode, struct file *filp) {
            
    struct npu_context *ctx = filp->private_data;
    // 清空任务队列、释放中间 buffer
    kfree(ctx);
    return 0;
}

通过独立上下文绑定、精细化任务提交与标准化 IOCTL 定义，驱动已具备完整的任务调度执行能力，为后续用户态 runtime 与 HAL 层调用提供坚实基础。

第4章：用户态驱动库（libnpu.so）与 SoC SDK 封装设计

用户态驱动库作为 HAL 与底层驱动之间的桥梁，负责模型文件加载、输入输出 buffer 映射、任务提交与同步等待，是 NPU 调度闭环的核心组件。该库需同时支持 AOSP 编译体系与 SoC SDK 独立封装要求。

4.1 libnpu.so 接口定义与任务调度流程

典型接口设计如下：

int npu_open();
int npu_load_model(const void *bin, int size, int *model_id);
int npu_alloc_buffer(int size, void **va, uint64_t *pa);
int npu_infer(int model_id, void *input_va, void *output_va);
void npu_close();

任务执行流程：

1. npu_open → 打开 /dev/npu0，初始化上下文
2. npu_load_model → IOCTL 加载模型，返回模型 ID
3. npu_alloc_buffer → 分配输入/输出 buffer 并映射到虚拟地址
4. npu_infer → 提交任务 → 等待中断 → 获取结果
5. npu_close → 释放资源、关闭设备

4.2 内存管理策略与 ION/DMABUF 接入实现

国产平台通常通过 ION 或 DMA-BUF 提供 zero-copy buffer：

int ion_fd = open("/dev/ion", O_RDWR);
struct ion_allocation_data alloc = {
            
    .len = size,
    .heap_id_mask = ION_HEAP_TYPE_DMA_MASK,
    .flags = ION_FLAG_CACHED,
};
ioctl(ion_fd, ION_IOC_ALLOC, &alloc);

分配后使用 mmap() 获取用户态地址，npu_task.input_addr 即为该地址，物理地址通过 ION_IOC_CUSTOM_GET_PHYS 获取。

4.3 与 Android 编译系统集成

在 SoC SDK 中添加 Android.bp：

cc_library_shared {
    name: "libnpu",
    srcs: ["npu_runtime.c"],
    shared_libs: ["liblog"],
    header_libs: ["libhardware_headers"],
    vendor: true,
}

在 BoardConfig.mk 添加编译路径：

BOARD_VENDOR_KERNEL_MODULES += device/vendor/npu/drivers/npu.ko
PRODUCT_PACKAGES += libnpu

部署后，HAL 层或 JNI 可直接通过 dlopen("libnpu.so") 动态链接使用接口。

4.4 多模型调度支持与线程安全机制

为支持多模型同时调度，可使用如下结构体管理模型实例：

struct model_instance {
            
    int model_id;
    pthread_mutex_t lock;
    void *input;
    void *output;
};

所有接口函数使用线程锁封装，防止并发冲突：

pthread_mutex_lock(&inst->lock);
npu_infer(inst->model_id, inst->input, inst->output);
pthread_mutex_unlock(&inst->lock);

通过标准化的接口封装、内存安全映射与多线程管理，用户态驱动库实现了 HAL 层无感知调用底层资源的能力，完成从模型到驱动的统一调度链闭环，为接下来的 HAL 层集成打通接口通路。

第5章：NNAPI HAL 架构解析与 HIDL 接口实现流程

Google 提供的 NNAPI HAL（Hardware Abstraction Layer）是连接 Android NNAPI Runtime 与硬件设备的标准接口。国产 NPU 若要在 AOSP 中支持 NNAPI，需要实现标准的 HIDL 接口定义，并提供完整的模型构建、执行调度、能力申报与错误管理逻辑。

5.1 NNAPI HIDL 架构与核心接口定义

在 Android 10~12 版本中，NNAPI HAL 使用 HIDL（HAL Interface Definition Language）定义，主要接口位于：

hardware/interfaces/neuralnetworks/1.3/IDevice.hal

核心方法包括：

getCapabilities_1_3()：返回执行性能指标；
getSupportedOperations_1_3(model)：返回模型中哪些操作支持加速；
prepareModel_1_3()：将模型转换为设备可执行的对象；
getNumberOfCacheFilesNeeded()：返回缓存文件数量；
getVersionString()：返回驱动版本信息。

开发者需实现这些方法，并通过 ServiceManager 向系统注册 HAL 服务。

5.2 HIDL 接口实现类结构与注册路径

以瑞芯微平台为例，HAL 实现结构如下：

class NPUDevice : public IDevice {
            
public:
    Return<void> getCapabilities_1_3(getCapabilities_1_3_cb _hidl_cb) override;
    Return<void> getSupportedOperations_1_3(const V1_3::Model& model,
        getSupportedOperations_1_3_cb _hidl_cb) override;
    Return<void> prepareModel_1_3(const V1_3::Model& model,
        ExecutionPreference preference,
        const sp<V1_3::IPreparedModelCallback>& callback) override;
    ...
};

HAL 服务注册入口通常位于 main_npu.cpp：

android::sp<NPUDevice> device = new NPUDevice();
status_t status = device->registerAsService("npu_service");

该注册过程依赖 hwservicemanager，并由 Android 系统的 init.rc 文件声明启动：

service vendor.npu_service /vendor/bin/hw/npu_hal
    class hal
    user system
    group system

5.3 prepareModel_1_3 与 execute 的调度流程

HAL 层的模型执行需实现两个阶段：

模型构建阶段（prepareModel_1_3）：

接收 NNAPI Runtime 传入的 Model 结构；
解析算子类型、Tensor 数据类型与形状；
调用 libnpu.so 提交模型加载接口，生成模型 ID；
返回 IPreparedModel 对象作为执行上下文句柄。

Return<void> NPUDevice::prepareModel_1_3(const Model& model, ..., sp<IPreparedModelCallback> callback) {
            
    int model_id = libnpu_load_model(model);
    sp<PreparedModel> preparedModel = new PreparedModel(model_id);
    callback->notify(ErrorStatus::NONE, preparedModel);
    return Void();
}

模型执行阶段（execute）：

接收 Request 中的输入输出缓冲区；
调用 libnpu.so 的 npu_infer 接口；
等待驱动完成，并返回执行状态与 output。

Return<ErrorStatus> PreparedModel::execute(...) {
            
    libnpu_infer(this->model_id, request.input, request.output);
    return ErrorStatus::NONE;
}

每个执行请求需在独立线程中完成，避免阻塞主线程。

第6章：AIDL 接口迁移适配路径与新接口实现要点

从 Android 12 开始，Google 建议新设备使用 AIDL（Android Interface Definition Language）替代 HIDL，实现 NNAPI HAL 接口。这一变化带来了类型安全增强、编译时检查加强与服务注册方式优化。国产 NPU 若计划支持 Android 14+，需提前规划 AIDL 版本接口实现。

6.1 AIDL 接口结构与功能定义说明

AIDL 接口位于：

hardware/interfaces/neuralnetworks/aidl/android/hardware/neuralnetworks/IDevice.aidl

核心接口：

getCapabilities()
getSupportedOperations(in Model model)
prepareModel(in Model model, in ExecutionPreference preference, IPreparedModelCallback callback)
allocate() / execute()（在 PreparedModel 接口中）

AIDL 接口由 .aidl 文件定义，并生成 Java/C++ 双向调用代码。

6.2 实现 AIDL 服务类与注册流程

服务类实现路径示例：

class NPUDeviceAidl : public BnDevice {
            
public:
    ndk::ScopedAStatus getCapabilities(Capabilities* out);
    ndk::ScopedAStatus prepareModel(const Model& model, ExecutionPreference pref, ...);
};

注册服务：

int main() {
            
    auto service = ndk::SharedRefBase::make<NPUDeviceAidl>();
    AServiceManager_addService(service->asBinder().get(), "android.hardware.neuralnetworks.IDevice/default");
    ABinderProcess_joinThreadPool();
    return 0;
}

系统服务配置：

android.hardware.neuralnetworks-service-npu.rc
manifest_android.hardware.neuralnetworks.xml

确保在 vintf/manifest.xml 中注册 AIDL 实现：

<interface>
    <name>android.hardware.neuralnetworks</name>
    <instance>default</instance>
    <format>aidl</format>
</interface>

6.3 HIDL 向 AIDL 平滑迁移建议

国产平台如已有成熟 HIDL HAL，建议采用如下方式平滑过渡：

方案	描述
双接口共存	Android.mk 中同时构建 AIDL 与 HIDL HAL 版本
内部逻辑共用	封装中间层 `NpuExecutor`，供两者调用共享代码
测试版本分离	在 CTS 环境中仅启用 AIDL，生产版保持 HIDL 兼容
分支独立维护	Android 11 保持 HIDL 主干，Android 14 开始使用 AIDL

通过这种双轨并行策略，可保障 CTS 合规性不受影响，同时满足高版本系统的新架构需求，形成面向未来的 NNAPI 接入兼容体系。后续章节将继续深入模型能力申报与 CTS 测试适配机制。

第7章：模型支持能力申报机制与动态支持集加载实现

NNAPI HAL 的核心职责之一是告知系统当前设备所支持的算子与模型执行能力。无论是 HIDL 还是 AIDL 实现，getSupportedOperations() 和 getCapabilities() 接口都要求精准申报设备能力，以满足 CTS 合规验证与运行时动态调度要求。国产 NPU 平台需构建动态、版本可配置的能力注册机制，以适应不同芯片配置、SDK 版本与 runtime 功能支持差异。

7.1 getCapabilities 接口结构与指标填充策略

getCapabilities 接口需返回如下性能指标：

struct Capabilities {
            
    float execTime;       // 执行耗时系数
    float powerUsage;     // 功耗系数
    PerformanceInfo relaxedFloat32toFloat16Performance;
};

填充建议：

execTime 设为 0.5~1.0，表示相对于基准 CPU 的加速倍数；
powerUsage 建议设置为 0.3~0.7，低于 CPU 可表示更节能；
对于不支持 float16 的平台，relaxedFloat32toFloat16Performance 可等同于 execTime。

示例：

Capabilities caps = {
            
    .execTime = 0.8f,
    .powerUsage = 0.4f,
    .relaxedFloat32toFloat16Performance = {
            0.9f, 0.4f}
};

这些值将影响系统是否将模型分派到当前 NPU 执行，若执行效率低或能耗高，NNAPI Runtime 将回退至 CPU。

7.2 getSupportedOperations 模型动态解析实现

在接收到 Model 结构体后，HAL 需要判断其中每一个 Operation 是否支持加速，返回一个布尔数组，要求顺序与输入 operation 保持一致。

实现方法：

std::vector<bool> supported(model.operations.size(), false);
for (size_t i = 0; i < model.operations.size(); ++i) {
            
    const Operation& op = model.operations[i];
    supported[i] = is_supported_op(op, model.operands);
}

推荐实现 is_supported_op() 函数包含以下逻辑：

是否在本平台支持算子列表中；
该算子所依赖的输入/输出 Tensor 类型是否匹配（FLOAT32, INT8 等）；
是否使用了 NPU 不支持的参数配置，如 dilation > 1 的 conv；
是否存在动态 shape 或维度不确定张量（部分平台不支持）。

为了提升解析速度，建议在初始化阶段构建 std::unordered_set<std::string> 形式的算子支持集，并对模型结构进行 Pattern Matching 优化。

第8章：CTS 合规测试准备与调试路径全流程

Google CTS 测试对 NNAPI HAL 的合规性验证极为严格，涵盖算子支持、调度行为、错误码返回、性能统计、缓存机制等多个方面。国产 NPU 若要集成入正式 Android 平台，必须通过相关 CTS 模块测试，完成 Debug 环境准备、Trace 采集、日志解析与用例修复闭环。

8.1 核心 NNAPI 测试模块说明

主要涉及以下测试包：

测试模块	路径 / 包名	测试内容说明
CtsNNAPITestCases	`com.android.nn.benchmark`	应用层 NNAPI 接口调用 + 执行验证
CtsHalNeuralNetworksTestCases	`android.hardware.neuralnetworks@1.x`	HIDL HAL 接口行为、错误码、fallback 等
VtsHalNeuralnetworksTargetTest	`/data/nativetest64/`	HAL 接口的底层参数验证（VTS 层）
GtsNNAPI*	`com.google.android.nnapi.*`	GMS 要求下的调度、性能与回退路径验证

推荐顺序为：VTS → CtsHal → CTS 应用层 → GTS。

8.2 CTS 环境搭建与启动方法

环境准备：

解压 CTS 测试包（如 android-cts-11_r6-linux_x86-arm.zip）；
将 NPU HAL 驱动与服务注册至系统；
确保所有 HAL 日志可打印至 logcat。

启动测试命令示例：

cd android-cts/tools
./cts-tradefed
run cts -m CtsNNAPITestCases

常用调试命令：

adb shell setprop debug.nn.vlog 1
adb logcat | grep nnapi
adb shell atrace --async_start nnapi sched

CTS 日志分析建议：

关注模型执行失败类型：fallback / unsupported op / return null；
错误码是否符合规范（如返回 -EINVAL 而非 -1）；
Timing 字段是否填充，是否为 UINT64_MAX；
调度行为是否符合设定（如 fast_single_answer 模式下是否加速）。

CTS 输出的 XML 可在 android-cts/reports/ 中查看完整日志，用于逐项定位失败点。

通过上述测试准备、日志审计与问题闭环处理，国产 NPU 平台可实现完整 CTS 合规交付，为 HAL 接口与 SoC 驱动的正式发布打下坚实基础。

第9章：与 TFLite Delegate、NNAPI Runtime 的对接测试实践

为了在 Android 系统中实现上层 AI 框架（如 TensorFlow Lite）与国产 NPU HAL 的无缝协同，必须完成 NNAPI Runtime 接入验证，并支持 TFLite Delegate 自动分发模型子图至 NNAPI 路径。该流程不仅是验证驱动功能的闭环关键，更是性能加速的根本来源。通过实际模型推理链条的贯通，可完成最终的 SoC SDK 验收与产品化测试。

9.1 TFLite Delegate 运行路径解析

TensorFlow Lite 在调用 NNAPI 推理时，执行路径如下：

TFLite Interpreter
  ↓
NNAPI Delegate
  ↓
ANeuralNetworksModel + ANeuralNetworksCompilation
  ↓
NNAPI Runtime
  ↓
HIDL/AIDL HAL 接口（prepareModel, execute）
  ↓
NPU 驱动 / libnpu.so / 内核模块

TFLite Delegate 典型使用方法：

tflite::StatefulNnApiDelegate::Options options;
options.execution_preference = ExecutionPreference::kSustainedSpeed;
auto nnapi_delegate = new StatefulNnApiDelegate(options);
interpreter->ModifyGraphWithDelegate(nnapi_delegate);

需要确保：

所有 getCapabilities/getSupportedOperations 返回准确；
HAL 实现支持 FLOAT32 与 UINT8 精度推理；
对于子图拆分后的输入/输出张量支持动态绑定。

验证方式：

使用 TFLite Model Benchmark Tool 进行测试；
或直接使用公开模型运行 nnapi_delegate_benchmark 工具。

9.2 NNAPI Runtime 执行流程与调试建议

在实际推理中，NNAPI Runtime 会依次调用：

ANeuralNetworksModel_create()
ANeuralNetworksModel_addOperand() / addOperation()
ANeuralNetworksModel_identifyInputsAndOutputs()
ANeuralNetworksCompilation_create()
ANeuralNetworksExecution_create()
ANeuralNetworksExecution_setInput/Output()
ANeuralNetworksExecution_startCompute()

上述接口对应 HAL 层的：

prepareModel → IDevice::prepareModel
execute → IPreparedModel::execute

调试建议：

打开 NNAPI_LOG_TAGS=1 环境变量获取 Runtime 日志；
使用 adb shell atrace 跟踪系统调度耗时；
在 HAL 层打印模型结构、Tensor 类型、模型 ID 进行核对；
验证 HAL 返回是否包含 timing 信息，执行是否 fallback。

常见问题：

问题类型	可能原因
delegate fallback 到 CPU	HAL 返回算子不支持或模型 prepare 失败
execute 无响应超时	NPU 驱动中断未触发，或模型内存未映射成功
execute 成功但输出全为 0	Output buffer 未 flush 或内存地址错误
执行时间大幅异常	调度优先级未设置，任务队列拥堵或 NPU 频率低

通过 TFLite Delegate 驱动验证链路并联调 NNAPI HAL，可实现全路径性能闭环验证与模型部署一致性测试。

第10章：平台交付版本整合发布与系统验证建议

完成 HAL 实现、驱动构建与 TFLite 对接后，最终需要将国产 NPU 支持模块整合进产品 BSP 发布版本，并验证在系统环境中能够长期稳定运行，满足 GMS 标准与商业应用需求。该流程涉及驱动模块打包、系统服务注册、设备清单声明与版本兼容策略处理等关键环节。

10.1 驱动与 HAL 模块打包策略

建议使用如下目录结构：

/vendor/
 └── lib64/
     └── libnpu.so         # 用户态 runtime
 └── bin/
     └── npu_hal_service   # HAL 注册服务（HIDL/AIDL）
 └── etc/init/
     └── android.hardware.neuralnetworks-service-npu.rc
 └── lib/hw/
     └── neuralnetworks.npu.so  # NNAPI HAL 实现动态库（AIDL 时）

构建系统建议：

Android.bp 中使用 cc_binary, cc_library_shared 构建 HAL 与 libnpu；

内核模块打包进 vendor_dlkm.img，并添加 insmod 路径到 init.rc；

BoardConfig.mk 中添加：

PRODUCT_COPY_FILES += 
    device/vendor/npu/init/android.hardware.neuralnetworks-service-npu.rc:$(TARGET_COPY_OUT_VENDOR)/etc/init/android.hardware.neuralnetworks-service-npu.rc

10.2 VINTF Manifest 注册与系统兼容声明

在 vendor/manifest.xml 添加 HAL 描述：

<hal format="aidl">
  <name>android.hardware.neuralnetworks</name>
  <transport>hwbinder</transport>
  <version>1</version>
  <interface>
    <name>IDevice</name>
    <instance>default</instance>
  </interface>
</hal>

注意事项：

AIDL 接口需在系统 build 时执行 aidl_interface 构建步骤；
对于 HIDL 接口，需在 manifest.xml 中指定 hal format="hidl"；
若计划通过 GMS 认证，需确保 VINTF 与实际 HAL 版本一致，且能通过 vintf check 验证工具。

系统验证建议：

使用 lshal 检查服务是否正常注册；
adb shell dumpsys nnapi 验证 HAL 运行状态；
在产品应用中部署 TFLite 模型验证功能完整性与稳定性；
使用 cts-tradefed 与 vts-tradefed 工具执行 NNAPI 全项验证。

最终，通过完整 HAL 驱动闭环构建、系统集成路径打通与应用层兼容性验证，国产 NPU 可成功进入 Android AI 生态标准化交付阶段，为车载、手机、边缘智能设备提供稳定、高性能的 AI 推理平台。

个人简介

作者简介：全栈研发，具备端到端系统落地能力，专注人工智能领域。
个人主页：观熵
个人邮箱：privatexxxx@163.com
座右铭：愿科技之光，不止照亮智能，也照亮人心！

专栏导航

观熵系列专栏导航：
AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到AI在行业中的落地应用，我们将深入剖析最前沿的AI技术，分享实用的开发经验，并探讨AI未来的发展趋势
AI开源框架实战：面向 AI 工程师的大模型框架实战指南，覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉：聚焦计算机视觉前沿技术，涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战：持续更新的国产开源大模型部署实战教程，覆盖从模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理的完整全流程
Agentic AI架构实战全流程：一站式掌握 Agentic AI 架构构建核心路径：从协议到调度，从推理到执行，完整复刻企业级多智能体系统落地方案！
云原生应用托管与大模型融合实战指南
智能数据挖掘工程实践
Kubernetes × AI工程实战
TensorFlow 全栈实战：从建模到部署：覆盖模型构建、训练优化、跨平台部署与工程交付，帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏： PyTorch 框架的全栈实战应用，涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT：深入解析 TensorRT 的核心机制与部署实践，助力构建高性能 AI 推理系统
Megatron-LM 实战笔记：聚焦于 Megatron-LM 框架的实战应用，涵盖从预训练、微调到部署的全流程
AI Agent：系统学习并亲手构建一个完整的 AI Agent 系统，从基础理论、算法实战、框架应用，到私有部署、多端集成
DeepSeek 实战与解析：聚焦 DeepSeek 系列模型原理解析与实战应用，涵盖部署、推理、微调与多场景集成，助你高效上手国产大模型
端侧大模型：聚焦大模型在移动设备上的部署与优化，探索端侧智能的实现路径
行业大模型 · 数据全流程指南：大模型预训练数据的设计、采集、清洗与合规治理，聚焦行业场景，从需求定义到数据闭环，帮助您构建专属的智能数据基座
机器人研发全栈进阶指南：从ROS到AI智能控制：机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全：通过实战案例和系统化方法，帮助开发者和安全工程师识别风险、构建防御机制，确保 AI 系统的稳定与安全
智能 DevOps 工厂：AI 驱动的持续交付实践：构建以 AI 为核心的智能 DevOps 平台，涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记？：聚焦于现代 C++ 编程的核心概念与实践，涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战：从数据、策略到实盘，打造全栈智能量化交易系统
大模型运营专家的Prompt修炼之路：本专栏聚焦开发 / 测试人员的实际转型路径，基于 OpenAI、DeepSeek、抖音等真实资料，拆解从入门到专业落地的关键主题，涵盖 Prompt 编写范式、结构输出控制、模型行为评估、系统接入与 DevOps 管理。每一篇都不讲概念空话，只做实战经验沉淀，让你一步步成为真正的模型运营专家。