工作原理是这样的:zram 是 Linux 内核提供的内存压缩模块,在 RAM 中划分一块区域作为压缩块设备,当内存紧张时将不活跃的页面压缩后存储在该块设备中,而非写入慢速 Swap 磁盘。由于压缩操作由 CPU 完成(现代 CPU 每秒可执行数十亿次压缩操作),延迟从毫秒级降至微秒级。lz4 是目前综合性能最优的压缩算法,压缩率约 2:1。对于模型推理场景,量化后的权重数据本身已是高度结构化的二进制格式,数据熵较低,非常适合压缩——实测显示二次压缩率可达 40%~60%。
不过要注意,zram 的压缩和解压会增加 CPU 负载约 5%~15%,好在第二步已经禁用了节能策略,CPU 有足够频率响应压缩操作。