研究

端侧 AI 数字人与云端推流:2026 年架构、带宽与成本对比

ST
Spatius Team
Jun 6, 2026 9 min read 分钟阅读

2026 年,实时 AI 数字人主要有两种架构。从外部看,它们都像是在完成同一件事:用户说话,数字人回应。但底层实现完全相反,也会在带宽、成本、延迟和部署弹性上产生非常不同的结果。

下面从第一性原理拆解这两种架构,并只关注生产环境中真正重要的数字。


Architecture 1: Cloud Streaming

在云端推流架构中,数字人运行在服务器上。完整管线,包括语音识别、语言模型、文本转语音、数字人动画、帧渲染,都在服务端执行。渲染后的结果被编码成视频流,通过 WebRTC 或类似协议发送到客户端。

客户端本质上只是一个视频播放器:接收视频流、解码帧、播放音频。设备 GPU 除了基础视频解码外几乎不参与。

数据流:

用户说话 → 云端:ASR → LLM → TTS → 数字人渲染 → H.264 编码

                                           1–2 MB/s 视频流发送到客户端

                                              客户端:解码 → 显示

采用这种架构的平台包括 HeyGen LiveAvatar、Tavus、Anam.ai,以及大多数 cloud-first interactive avatar 系统。

What Cloud Streaming Gets Right

云端推流的渲染质量上限很高。云端 GPU 可以不妥协地渲染:完整多边形预算、高分辨率纹理。客户端硬件能力不重要,因为设备只负责解码视频。

Where Cloud Streaming Breaks Down

带宽不可协商。 标准质量视频流每路会话需要持续 1–2 MB/s。这是可用质量视频编码的物理约束,不是可以通过配置调优绕开的参数。丢包会导致画面伪影,抖动会导致口型同步漂移,带宽不足会造成质量下降或卡顿。

延迟有高于 3 秒的结构性下限。 云端管线的每一步都会增加延迟:音频往返、ASR 处理、LLM 推理、TTS 合成、数字人渲染、视频编码、流传输、客户端解码。传统云端渲染数字人的端到端延迟通常大于 3 秒。

每路会话成本随 GPU 时间增长。 云端 GPU 渲染是昂贵部分。行业中云端推流 interactive avatar 会话的平均成本约为 0.15 美元/分钟。当会话量变大时,这会成为主要基础设施成本。

连接质量是硬依赖。 如果连接低于视频流最低可用码率,体验就会中断。没有真正优雅的降级模式:要么视频流能跑,要么不能。


Architecture 2: On-Device Rendering (Spatius)

Spatius 将渲染与驱动推理分离。云端 GPU 只运行轻量 driving model,接收 TTS 音频并输出 FLAME 表情参数,也就是描述数字人面部每个时刻应该如何运动的紧凑数学数据。这些参数以 10–20 KB/s 流式传输到客户端。

客户端运行 Spatius 的渲染 SDK AvatarKit。AvatarKit 接收 FLAME 参数,将其应用到保存在设备端的 3DGS(3D Gaussian Splatting)数字人模型上,并在本地渲染结果。音频和视觉输出也在设备端完成对齐。

数据流:

[客户自建:ASR → LLM → TTS 音频]

Spatius 云端:轻量 driving model → FLAME 表情参数

         10–20 KB/s 参数流

AvatarKit(客户端):3DGS 渲染 + 音频对齐 → 显示

重要说明: Spatius 不提供 ASR、LLM 或 TTS。这些由客户自建。Spatius 负责 driving model(云端轻量 GPU 推理)和 AvatarKit(客户端渲染,零推理成本)。

What On-Device Rendering Gets Right

带宽下降约 99%。 10–20 KB/s 对比 1–2 MB/s 不是微小差异,而是“需要专线光纤”和“共享 4G 也能用”的差异。20 台设备部署合计只需要约 200–400 KB/s,对任何商业网络都很小。

端到端延迟低于 1.5 秒。 在 Spatius 侧,从音频输入到数字人交互增加的延迟低于 300ms。配合优化过的端到端语音 AI 栈,总响应延迟可以低于 1 秒。相比传统云渲染 3 秒以上的延迟,这是对话体感上的根本差异。

成本结构改变。 Spatius Scale 计划为 0.007 美元/分钟(0.42 美元/小时)。云端推流数字人会话的行业平均约为 0.15 美元/分钟,高出 20 倍以上。以 5,000 美元预算计算,Spatius 可提供约 11,349 小时会话,行业平均只能提供约 556 小时。

入门级硬件足够。 AvatarKit 只做渲染和音频对齐,不做推理,因此入门级 SoC 可以稳定承载 25fps,中端硬件可达 30–60fps。官方支持芯片包括 G88、S565、8189 和 RK3576,都不需要独立 GPU。

网络退化影响的是延迟,而不是渲染质量。 短暂连接中断会延迟下一批 FLAME 参数。当前渲染帧仍继续显示。用户看到的是数字人发言短暂停顿,而不是冻结或满屏伪影的视频帧。

What On-Device Rendering Gives Up

渲染质量上限取决于硬件。 最高视觉保真度需要更强的客户端 GPU。在受限硬件上追求高级视觉效果时,需要做取舍。

需要 SDK 集成。 应用中必须集成 AvatarKit:Web 使用 npm @spatialwalk/avatarkit,iOS 使用 AvatarKit.xcframework,Android 使用 Gradle ai.spatialwalk:avatarkit

数字人模型会下发到应用。 3DGS 模型约 5–10 MB,首次使用时下载到设备。


Side-by-Side Comparison

DimensionCloud StreamingSpatius (On-Device)
Bandwidth per session1–2 MB/s10–20 KB/s (~99% less)
End-to-end latency>3 seconds<1.5 seconds
Avatar→audio additional latencyHigh (encode+stream+decode)<300ms
Cost per hour~$9/hr (industry avg $0.15/min)$0.42/hr (Scale plan)
Rendering locationCloud GPUClient device
Cloud GPU involved?Yes (heavy — full render)Yes (light — driving model only)
Works on entry-level devicesYes (video decode only)Yes (25fps on entry-level SOC)
Works on 1–2 Mbps connectionsMarginal / unreliableUnaffected (10–20 KB/s)
Connectivity fallbackStream degrades/stopsAudio-only mode (15s timeout)
Platform SDKVariesWeb / iOS / Android
You provide ASR+LLM+TTSNo (platform-managed)Yes (customer-built)

Choosing Between Architectures

云端推流适合:

  • 你需要最高视觉保真度,并且部署环境有稳定高带宽
  • 你希望供应商托管完整 AI 管线(ASR + LLM + TTS + 渲染)
  • 会话量较低,按分钟成本不是核心约束

端侧渲染(Spatius)适合:

  • 你要部署到带宽受限环境:零售 kiosk、现场设备、移动优先场景、新兴市场
  • 预计会话量较高,0.42 美元/小时与约 9 美元/小时的成本差异很重要
  • 你需要 Web 之外的原生 iOS 和 Android SDK 覆盖
  • 你希望完全控制自己的 AI 栈,自选 ASR、LLM 和 TTS 供应商
  • 你希望数字人在连接中断时优雅降级,而不是硬失败

Try the Architecture in Your Browser

Spatius playground 会在浏览器中使用 WebGL/WebGPU 运行 AvatarKit。数字人渲染发生在你的设备上,而不是从服务器推流。对话时打开 DevTools → Network,你会看到 10–20 KB/s 范围内的小参数包,而不是持续 1–2 MB/s 的视频流。


硬件要求 → AI Avatar on Entry-Level Chipsets: How On-Device Rendering Works on Budget Hardware

性能数字 → Comparing AI Avatar Platforms for Speed: Latency, Bandwidth, and Performance in 2026

真实部署场景 → AI Avatars for Edge Deployments: Kiosks, Retail, and Low-Bandwidth Environments

完整平台格局 → Interactive Avatar: The Complete Guide to Real-Time AI Avatars in 2026

on-device avatar cloud streaming AI avatar architecture bandwidth latency
分享 X (Twitter) LinkedIn