人工智能100问☞第52问：什么是FP16、INT8？

一、通俗解释

二、专业解析

三、权威参考

两种精度本质是效率与精度的权衡——FP16是“够快且够用”，INT8则是“极速但妥协”，开发者需按场景灵活选择。

FP16：轻便计算器

想象你要算一笔账：

FP32像科学计算器（精度高但笨重）

FP16则像轻便计算器：

✅ 优势：算得快、省电（内存占用仅为FP32一半），适合手机拍照优化（如夜景中保留亮暗细节）

❌ 劣势：复杂计算可能“算不准”（如小数点后多位可能丢失）

典型场景：手机AI拍照、视频美颜（需一定精度但非极致）

INT8：整数计数器

类比超市结账：

INT8像只记录整数的扫码枪：

✅ 优势：速度极快、超省电（数据量比FP16小2倍），适合手表计步等简单任务

❌ 劣势：无法处理小数（需将浮点数“四舍五入”成整数，可能失真）

典型场景：智能门锁人脸识别、行车记录仪等低功耗设备

1、FP16（半精度浮点数）

技术特性	说明
位宽结构	1符号位 + 5指数位 + 10尾数位（共16位）
数值范围	±6.5×10⁴（动态范围有限）
精度损失风险	梯度计算中易出现下溢（接近0的值归零）或溢出（过大值无法表示）
硬件加速	NVIDIA Tensor Core专为FP16矩阵乘加优化，训练速度比FP32快2倍
应用方案	混合精度训练（FP16计算 + FP32存储权重）

2、INT8（8位整数）

技术特性	说明
量化原理	通过缩放因子（Scale）和零点（Zero Point）将浮点映射到[-128, 127]整数域
内存占用	模型体积缩小4倍（相比FP32），显存带宽需求大幅降低
计算瓶颈	仅支持乘加运算（MAC），无法执行除法/开方等复杂操作
部署工具	TensorRT/TFLite通过校准数据集动态调整量化参数，减少精度损失
能效比	边缘设备推理速度提升3倍，功耗降低50%

3、对比总结

💡 技术趋势：新型格式如FP8（8位浮点）试图融合两者优势，已在NVIDIA H100中应用。

1、 IEEE（电气电子工程师学会）

FP16（半精度浮点数）：

结构：1位符号位 + 5位指数位 + 10位尾数位（共16位）

特性：动态范围（5.96×10⁻⁸ ~ 65504）仅为FP32的1/1000，内存占用为FP32的1/2，但存在数值溢出风险（如梯度消失）。

INT8（8位整数）：

结构：1位符号位 + 7位数值位（有符号范围：-128 ~ 127；无符号范围：0 ~ 255）

特性：无小数位，仅表示整数，存储空间为FP32的1/4，计算能耗降低70%。

2、中国信通院《中国算力发展智算白皮书》

FP16是智能算力（AI）的基准精度，默认用于大模型训练与推理；

INT8是边缘计算的核心精度，支撑低功耗设备实时推理。

3、腾讯研究院《算力产业白皮书》