端侧 AI 数字人与云端推流：2026 年架构、带宽与成本对比

2026 年，实时 AI 数字人主要有两种架构。从外部看，它们都像是在完成同一件事：用户说话，数字人回应。但底层实现完全相反，也会在带宽、成本、延迟和部署弹性上产生非常不同的结果。

下面从第一性原理拆解这两种架构，并只关注生产环境中真正重要的数字。

Architecture 1: Cloud Streaming

在云端推流架构中，数字人运行在服务器上。完整管线，包括语音识别、语言模型、文本转语音、数字人动画、帧渲染，都在服务端执行。渲染后的结果被编码成视频流，通过 WebRTC 或类似协议发送到客户端。

客户端本质上只是一个视频播放器：接收视频流、解码帧、播放音频。设备 GPU 除了基础视频解码外几乎不参与。

数据流：

用户说话 → 云端：ASR → LLM → TTS → 数字人渲染 → H.264 编码
                                                              ↓
                                           1–2 MB/s 视频流发送到客户端
                                                              ↓
                                              客户端：解码 → 显示

采用这种架构的平台包括 HeyGen LiveAvatar、Tavus、Anam.ai，以及大多数 cloud-first interactive avatar 系统。

What Cloud Streaming Gets Right

云端推流的渲染质量上限很高。云端 GPU 可以不妥协地渲染：完整多边形预算、高分辨率纹理。客户端硬件能力不重要，因为设备只负责解码视频。

Where Cloud Streaming Breaks Down

带宽不可协商。 标准质量视频流每路会话需要持续 1–2 MB/s。这是可用质量视频编码的物理约束，不是可以通过配置调优绕开的参数。丢包会导致画面伪影，抖动会导致口型同步漂移，带宽不足会造成质量下降或卡顿。

延迟有高于 3 秒的结构性下限。 云端管线的每一步都会增加延迟：音频往返、ASR 处理、LLM 推理、TTS 合成、数字人渲染、视频编码、流传输、客户端解码。传统云端渲染数字人的端到端延迟通常大于 3 秒。

每路会话成本随 GPU 时间增长。 云端 GPU 渲染是昂贵部分。行业中云端推流 interactive avatar 会话的平均成本约为 0.15 美元/分钟。当会话量变大时，这会成为主要基础设施成本。

连接质量是硬依赖。 如果连接低于视频流最低可用码率，体验就会中断。没有真正优雅的降级模式：要么视频流能跑，要么不能。

Architecture 2: On-Device Rendering (Spatius)

Spatius 将渲染与驱动推理分离。云端 GPU 只运行轻量 driving model，接收 TTS 音频并输出 FLAME 表情参数，也就是描述数字人面部每个时刻应该如何运动的紧凑数学数据。这些参数以 10–20 KB/s 流式传输到客户端。

客户端运行 Spatius 的渲染 SDK AvatarKit。AvatarKit 接收 FLAME 参数，将其应用到保存在设备端的 3DGS（3D Gaussian Splatting）数字人模型上，并在本地渲染结果。音频和视觉输出也在设备端完成对齐。

数据流：

[客户自建：ASR → LLM → TTS 音频]
         ↓
Spatius 云端：轻量 driving model → FLAME 表情参数
         ↓
         10–20 KB/s 参数流
         ↓
AvatarKit（客户端）：3DGS 渲染 + 音频对齐 → 显示

重要说明： Spatius 不提供 ASR、LLM 或 TTS。这些由客户自建。Spatius 负责 driving model（云端轻量 GPU 推理）和 AvatarKit（客户端渲染，零推理成本）。

What On-Device Rendering Gets Right

带宽下降约 99%。 10–20 KB/s 对比 1–2 MB/s 不是微小差异，而是“需要专线光纤”和“共享 4G 也能用”的差异。20 台设备部署合计只需要约 200–400 KB/s，对任何商业网络都很小。

端到端延迟低于 1.5 秒。 在 Spatius 侧，从音频输入到数字人交互增加的延迟低于 300ms。配合优化过的端到端语音 AI 栈，总响应延迟可以低于 1 秒。相比传统云渲染 3 秒以上的延迟，这是对话体感上的根本差异。

成本结构改变。 Spatius Scale 计划为 0.007 美元/分钟（0.42 美元/小时）。云端推流数字人会话的行业平均约为 0.15 美元/分钟，高出 20 倍以上。以 5,000 美元预算计算，Spatius 可提供约 11,349 小时会话，行业平均只能提供约 556 小时。

入门级硬件足够。 AvatarKit 只做渲染和音频对齐，不做推理，因此入门级 SoC 可以稳定承载 25fps，中端硬件可达 30–60fps。官方支持芯片包括 G88、S565、8189 和 RK3576，都不需要独立 GPU。

网络退化影响的是延迟，而不是渲染质量。 短暂连接中断会延迟下一批 FLAME 参数。当前渲染帧仍继续显示。用户看到的是数字人发言短暂停顿，而不是冻结或满屏伪影的视频帧。

What On-Device Rendering Gives Up

渲染质量上限取决于硬件。 最高视觉保真度需要更强的客户端 GPU。在受限硬件上追求高级视觉效果时，需要做取舍。

需要 SDK 集成。 应用中必须集成 AvatarKit：Web 使用 npm @spatialwalk/avatarkit，iOS 使用 AvatarKit.xcframework，Android 使用 Gradle ai.spatialwalk:avatarkit。

数字人模型会下发到应用。 3DGS 模型约 5–10 MB，首次使用时下载到设备。

Side-by-Side Comparison

Dimension	Cloud Streaming	Spatius (On-Device)
Bandwidth per session	1–2 MB/s	10–20 KB/s (~99% less)
End-to-end latency	>3 seconds	<1.5 seconds
Avatar→audio additional latency	High (encode+stream+decode)	<300ms
Cost per hour	~$9/hr (industry avg $0.15/min)	$0.42/hr (Scale plan)
Rendering location	Cloud GPU	Client device
Cloud GPU involved?	Yes (heavy — full render)	Yes (light — driving model only)
Works on entry-level devices	Yes (video decode only)	Yes (25fps on entry-level SOC)
Works on 1–2 Mbps connections	Marginal / unreliable	Unaffected (10–20 KB/s)
Connectivity fallback	Stream degrades/stops	Audio-only mode (15s timeout)
Platform SDK	Varies	Web / iOS / Android
You provide ASR+LLM+TTS	No (platform-managed)	Yes (customer-built)