2026 年,实时 AI 数字人主要有两种架构。从外部看,它们都像是在完成同一件事:用户说话,数字人回应。但底层实现完全相反,也会在带宽、成本、延迟和部署弹性上产生非常不同的结果。
下面从第一性原理拆解这两种架构,并只关注生产环境中真正重要的数字。
Architecture 1: Cloud Streaming
在云端推流架构中,数字人运行在服务器上。完整管线,包括语音识别、语言模型、文本转语音、数字人动画、帧渲染,都在服务端执行。渲染后的结果被编码成视频流,通过 WebRTC 或类似协议发送到客户端。
客户端本质上只是一个视频播放器:接收视频流、解码帧、播放音频。设备 GPU 除了基础视频解码外几乎不参与。
数据流:
用户说话 → 云端:ASR → LLM → TTS → 数字人渲染 → H.264 编码
↓
1–2 MB/s 视频流发送到客户端
↓
客户端:解码 → 显示
采用这种架构的平台包括 HeyGen LiveAvatar、Tavus、Anam.ai,以及大多数 cloud-first interactive avatar 系统。
What Cloud Streaming Gets Right
云端推流的渲染质量上限很高。云端 GPU 可以不妥协地渲染:完整多边形预算、高分辨率纹理。客户端硬件能力不重要,因为设备只负责解码视频。
Where Cloud Streaming Breaks Down
带宽不可协商。 标准质量视频流每路会话需要持续 1–2 MB/s。这是可用质量视频编码的物理约束,不是可以通过配置调优绕开的参数。丢包会导致画面伪影,抖动会导致口型同步漂移,带宽不足会造成质量下降或卡顿。
延迟有高于 3 秒的结构性下限。 云端管线的每一步都会增加延迟:音频往返、ASR 处理、LLM 推理、TTS 合成、数字人渲染、视频编码、流传输、客户端解码。传统云端渲染数字人的端到端延迟通常大于 3 秒。
每路会话成本随 GPU 时间增长。 云端 GPU 渲染是昂贵部分。行业中云端推流 interactive avatar 会话的平均成本约为 0.15 美元/分钟。当会话量变大时,这会成为主要基础设施成本。
连接质量是硬依赖。 如果连接低于视频流最低可用码率,体验就会中断。没有真正优雅的降级模式:要么视频流能跑,要么不能。
Architecture 2: On-Device Rendering (Spatius)
Spatius 将渲染与驱动推理分离。云端 GPU 只运行轻量 driving model,接收 TTS 音频并输出 FLAME 表情参数,也就是描述数字人面部每个时刻应该如何运动的紧凑数学数据。这些参数以 10–20 KB/s 流式传输到客户端。
客户端运行 Spatius 的渲染 SDK AvatarKit。AvatarKit 接收 FLAME 参数,将其应用到保存在设备端的 3DGS(3D Gaussian Splatting)数字人模型上,并在本地渲染结果。音频和视觉输出也在设备端完成对齐。
数据流:
[客户自建:ASR → LLM → TTS 音频]
↓
Spatius 云端:轻量 driving model → FLAME 表情参数
↓
10–20 KB/s 参数流
↓
AvatarKit(客户端):3DGS 渲染 + 音频对齐 → 显示
重要说明: Spatius 不提供 ASR、LLM 或 TTS。这些由客户自建。Spatius 负责 driving model(云端轻量 GPU 推理)和 AvatarKit(客户端渲染,零推理成本)。
What On-Device Rendering Gets Right
带宽下降约 99%。 10–20 KB/s 对比 1–2 MB/s 不是微小差异,而是“需要专线光纤”和“共享 4G 也能用”的差异。20 台设备部署合计只需要约 200–400 KB/s,对任何商业网络都很小。
端到端延迟低于 1.5 秒。 在 Spatius 侧,从音频输入到数字人交互增加的延迟低于 300ms。配合优化过的端到端语音 AI 栈,总响应延迟可以低于 1 秒。相比传统云渲染 3 秒以上的延迟,这是对话体感上的根本差异。
成本结构改变。 Spatius Scale 计划为 0.007 美元/分钟(0.42 美元/小时)。云端推流数字人会话的行业平均约为 0.15 美元/分钟,高出 20 倍以上。以 5,000 美元预算计算,Spatius 可提供约 11,349 小时会话,行业平均只能提供约 556 小时。
入门级硬件足够。 AvatarKit 只做渲染和音频对齐,不做推理,因此入门级 SoC 可以稳定承载 25fps,中端硬件可达 30–60fps。官方支持芯片包括 G88、S565、8189 和 RK3576,都不需要独立 GPU。
网络退化影响的是延迟,而不是渲染质量。 短暂连接中断会延迟下一批 FLAME 参数。当前渲染帧仍继续显示。用户看到的是数字人发言短暂停顿,而不是冻结或满屏伪影的视频帧。
What On-Device Rendering Gives Up
渲染质量上限取决于硬件。 最高视觉保真度需要更强的客户端 GPU。在受限硬件上追求高级视觉效果时,需要做取舍。
需要 SDK 集成。 应用中必须集成 AvatarKit:Web 使用 npm @spatialwalk/avatarkit,iOS 使用 AvatarKit.xcframework,Android 使用 Gradle ai.spatialwalk:avatarkit。
数字人模型会下发到应用。 3DGS 模型约 5–10 MB,首次使用时下载到设备。
Side-by-Side Comparison
| Dimension | Cloud Streaming | Spatius (On-Device) |
|---|---|---|
| Bandwidth per session | 1–2 MB/s | 10–20 KB/s (~99% less) |
| End-to-end latency | >3 seconds | <1.5 seconds |
| Avatar→audio additional latency | High (encode+stream+decode) | <300ms |
| Cost per hour | ~$9/hr (industry avg $0.15/min) | $0.42/hr (Scale plan) |
| Rendering location | Cloud GPU | Client device |
| Cloud GPU involved? | Yes (heavy — full render) | Yes (light — driving model only) |
| Works on entry-level devices | Yes (video decode only) | Yes (25fps on entry-level SOC) |
| Works on 1–2 Mbps connections | Marginal / unreliable | Unaffected (10–20 KB/s) |
| Connectivity fallback | Stream degrades/stops | Audio-only mode (15s timeout) |
| Platform SDK | Varies | Web / iOS / Android |
| You provide ASR+LLM+TTS | No (platform-managed) | Yes (customer-built) |
Choosing Between Architectures
云端推流适合:
- 你需要最高视觉保真度,并且部署环境有稳定高带宽
- 你希望供应商托管完整 AI 管线(ASR + LLM + TTS + 渲染)
- 会话量较低,按分钟成本不是核心约束
端侧渲染(Spatius)适合:
- 你要部署到带宽受限环境:零售 kiosk、现场设备、移动优先场景、新兴市场
- 预计会话量较高,0.42 美元/小时与约 9 美元/小时的成本差异很重要
- 你需要 Web 之外的原生 iOS 和 Android SDK 覆盖
- 你希望完全控制自己的 AI 栈,自选 ASR、LLM 和 TTS 供应商
- 你希望数字人在连接中断时优雅降级,而不是硬失败
Try the Architecture in Your Browser
Spatius playground 会在浏览器中使用 WebGL/WebGPU 运行 AvatarKit。数字人渲染发生在你的设备上,而不是从服务器推流。对话时打开 DevTools → Network,你会看到 10–20 KB/s 范围内的小参数包,而不是持续 1–2 MB/s 的视频流。
Related Reading
硬件要求 → AI Avatar on Entry-Level Chipsets: How On-Device Rendering Works on Budget Hardware
性能数字 → Comparing AI Avatar Platforms for Speed: Latency, Bandwidth, and Performance in 2026
真实部署场景 → AI Avatars for Edge Deployments: Kiosks, Retail, and Low-Bandwidth Environments
完整平台格局 → Interactive Avatar: The Complete Guide to Real-Time AI Avatars in 2026