入门级芯片上的 AI 数字人：端侧渲染如何在低成本硬件上运行

入门级硬件是大多数 AI 数字人部署最容易被低估的限制。很多平台默认你有稳定高速网络、可靠云端 GPU，以及足够的预算去承受持续的视频推流成本。理论上很干净：服务器渲染数字人，设备接收视频流，用户看到画面。但一旦离开理想环境，这个假设就会变得脆弱。

问题通常出现在真实部署现场：零售门店的共享 WiFi、仓库里的蜂窝网络、批量采购成本只有几十美元的 kiosk 设备。传统云端渲染数字人每路会话需要持续 1–2 MB/s 的视频带宽。在受限网络和预算硬件上，这就是体验崩坏的起点。

Spatius 采用了不同方法。它不是在云端渲染视频再推流，而是让云端 GPU 运行轻量 driving model，生成 FLAME 表情参数，也就是数字人面部应该如何运动的紧凑数学描述。这些参数以 10–20 KB/s 传给客户端，客户端设备再用自身 GPU 在本地渲染 3DGS 数字人。没有视频流，也没有重型解码链路。

从“传视频”切换到“传表达参数”，正是 Spatius 能在入门级芯片上稳定运行的关键。

Why Entry-Level Hardware Can Handle This

Spatius 中实时 AI 数字人的 GPU 工作负载，和很多人想象的并不一样。设备端没有运行重型机器学习推理。把音频转换成面部表情的 driving model 运行在 Spatius 云端。客户端 SDK AvatarKit 接收预计算好的 FLAME 参数，并把这些参数应用到设备上的 3DGS（3D Gaussian Splatting）数字人模型上。

真正发生在设备端的是 3DGS 数字人的 25–30fps 渲染。模型本身很小，约 5–10 MB。对于现代移动端或嵌入式 GPU 来说，这是可控的负载，远轻于一款 60fps 手机游戏。

Spatius 官方支持入门级芯片上 60fps 运行。验证过的硬件包括 G88、S565、8189、RK3576 等芯片，不需要独立 GPU。对于最紧的入门级 SoC，稳定 25fps 是底线；中端及以上硬件通常可达到 30–60fps。

What “Entry-Level” Means in This Context

Spatius 面向的参考硬件包括：

嵌入式 / kiosk SoC — RK3576 这类芯片常见于商业 Android kiosk 硬件。它们可以在持续会话下稳定承载 AvatarKit 渲染管线，并保持 25fps，不需要额外独立 GPU。

预算 Android 与 IoT 设备 — G88、S565 这类芯片代表全球 100–200 美元 Android 设备中的常见硬件等级。AvatarKit 可跨 Web、iOS、Android SDK 在这类设备上运行。

老旧硬件上的 Web 部署 — Web SDK 使用 WebGL / WebGPU，现代浏览器基本都支持。因此，即使是运行 Chrome 或 Safari 的旧桌面、旧笔记本，也能在没有独立 GPU 的情况下本地渲染数字人。

这些场景共同的关键点是：设备端零推理。AvatarKit 只做渲染和音频对齐。最昂贵的计算步骤，也就是从音频生成表达参数，由 Spatius 云端轻量 GPU 模型完成；它生成的是小体积 FLAME 参数包，而不是视频。

The Bandwidth Equation

传统云端渲染数字人传输的是视频。标准质量下，每路会话需要持续 1–2 MB/s。20 台 kiosk 同时运行时，仅数字人视频就需要 20–40 MB/s 的稳定带宽。

Spatius 传输的是 FLAME 表情驱动数据：每路会话 10–20 KB/s。20 台 kiosk 合计只需要约 200–400 KB/s。这个量级对任何商业网络都很小，在 4G 蜂窝网络上也稳定，即使网络条件下降也仍然可用。

这不是配置层面的取舍，而是架构属性。压缩比来自“传紧凑表达参数”，而不是“传编码后的视频帧”。

How the Architecture Fits Together

Spatius 使用三层分离：

AI Agent（客户自建） — 你构建并拥有完整语音 AI 栈：ASR（语音转文本）、LLM（语言模型）和 TTS（文本转语音）。Spatius 不提供这些组件。
Avatar（Spatius） — 3DGS 数字人模型，可由单张照片生成，最快约 3 小时完成，模型大小约 5–10 MB。
AvatarKit SDK（Spatius 核心产品） — 位于客户端设备上的渲染引擎，接收 Spatius 云端 driving model 输出的 FLAME 参数，并让数字人与音频同步渲染。

数据流如下：

[你的 TTS 音频] → Spatius 云端 driving model → FLAME 表情参数（10–20 KB/s）
                                                          ↓
                                                 AvatarKit（客户端 SDK）
                                                 本地渲染 3DGS 数字人

这个管线里的云端 GPU 运行轻量 driving inference，而不是视频编码。与完整云端渲染相比，渲染成本大幅降低，虽然并非完全消失。视觉渲染由客户端完成，设备端没有推理成本。