工程

用单张照片构建 Custom AI Avatar:2026 年 3DGS 与 Facial Matching 如何工作

ST
Spatius Team
Jun 14, 202610 min read 分钟阅读

过去,创建一个照片级真实的 custom AI avatar 往往需要专业 3D 扫描设备、数小时手工建模,以及能支撑实时播放的重型渲染基础设施。到了 2026 年,这个流程可以从一张照片开始,生成一个约 5-10 MB 的模型文件,并在中端移动设备上以 30-60 fps 渲染。

理解这背后的机制,尤其是 3D Gaussian Splatting(3DGS)和 facial matching 管线,对任何要构建自定义 persona 的交互式 AI avatar 产品都很重要。

Facial Matching SDK 到底是什么意思

在实时 AI avatar 语境中,facial matching SDK 通常指两个容易被混在一起的能力:

身份保持的 Avatar 重建:从照片、视频或扫描数据中重建某个人的 3D 面部模型,让最终 avatar 仍然能被识别为这个人。

实时面部驱动和表情匹配:基于音频、Motion data(驱动参数)或动作捕捉实时驱动该模型,让它说话和表情变化时仍然符合这个人的自然面貌。

多数提供“custom avatar”能力的平台会处理其中一个或两个环节。不同方法的质量差距很大,核心差异来自底层 3D 表示技术。

传统自定义数字人方案的问题

在 3DGS 可以用于实时渲染之前,照片级自定义 avatar 常见做法包括:

3D mesh scanning:需要受控光照、多相机设备和专业环境。模型质量高,但输入条件让它难以用于多数消费级或企业级场景。

单目视频重建:从一段主体视频中估计 3D 结构。输入更容易,但在不可控光照、侧脸或极端角度下质量会明显下降,头发和皮肤纹理也容易出现 artifact。

通用基础模型贴图:从标准 3D 人脸模型开始,把目标人脸照片作为纹理贴上去。速度快,但容易显得不自然,无法真实捕捉脸部深度、镜面高光和体积感。

视频 puppet / neural rendering:用一段驱动视频把表情迁移到目标照片上。预渲染视频质量可以很高,但计算要求让它不适合实时交互。

3DGS 如何改变这个问题

3D Gaussian Splatting 是一种计算机视觉中的 3D 场景表示技术。它不用多边形 mesh 表示物体,而是用一组带方向、颜色和透明度的 3D Gaussian splats 表示场景。它适合实时 avatar 渲染的原因包括:

稀疏输入下的高视觉保真:从多个视角训练出的 3DGS 模型可以重建皮肤次表面散射、表面高光和体积化头发等细节,这些是 mesh 方法很难干净表达的。

输出紧凑:完整 3DGS avatar 模型可以约 5-10 MB。作为对比,传统高保真游戏角色资产连同贴图常常达到 50-200 MB。

通过 rasterization 实时渲染:Gaussian splats 可以用标准 GPU rasterization 高效渲染。现代浏览器中的 WebGL 和 WebGPU 足以在典型会话尺寸下实现 30-60 fps。

无需独立 GPU:模型紧凑、渲染高效,所以 3DGS avatar 可以在移动芯片、嵌入式屏幕和预算 Android 设备上稳定运行,而这些设备往往无法支撑传统高保真 avatar 的实时渲染。

从单张照片到 Avatar:Spatius 管线

Spatius avatar 创建管线以单张照片为输入,输出 3DGS avatar 模型:

  1. 人脸检测和裁剪:提取人脸区域,并对尺度、方向和光照做标准化。

  2. 3D 几何估计:神经模型从单视角估计面部 3D 几何。这是单图场景最难的一步,因为需要从 2D 图像推断深度、自遮挡区域和后脑几何。

  3. 多视角合成:基于几何估计合成多个角度的合理面部视图,为 3DGS 训练创建 pseudo multi-view 数据集。

  4. 3DGS 模型训练:在合成多视角数据上优化 3D Gaussian Splatting 模型,使一组 Gaussians 复现目标外观。

  5. Motion data(驱动参数)绑定:将 3DGS 模型绑定到 Spatius 的 Motion data 驱动空间。这一步让模型可以被 Spatius 会话中的轻量 Motion data 数据流实时驱动。

  6. 模型导出:最终 5-10 MB 左右的模型文件被存储,并与 Spatius 账号中的 Avatar ID 关联。

从照片到可部署模型的总时间:当前生产参考可低至约 3 小时。模型生成后会与 Avatar ID 关联,可用于后续会话,不需要每次重新生成。

质量说明:单图重建无法完全恢复照片里不可见的信息,例如极端侧脸、后脑、头发遮挡。合成步骤会做合理估计,但不是所有输入都能完美。对需要高度准确 likeness 的场景,例如品牌代言人或个性化教育,多张参考照片会帮助提升重建质量。

Facial Matching SDK 在实践中意味着什么

Spatius avatar 创建中的 “facial matching” 不是人脸识别意义上的匹配,不是从图片中判断“这是谁”。它关注的是在表情空间中保持一个人的身份特征:脸型、纹理和辨识性细节在微笑、皱眉或说话时仍然可识别。

这与换脸或 deepfake 技术不同。3DGS 模型来自主体的真实外观,而不是把一张纹理贴到另一个模型几何上。Motion data(驱动参数)约束了表情空间,使面部动作保持在人类自然表情范围内,减少不受约束方法中常见的诡异变形。

对于需要多语言准确口型的应用,尤其是教育和语言学习,Spatius 支持多语种口型,也能处理数学符号等技术表达。这是教育场景中的一个关键差异化能力。

Custom Avatar vs Stock Avatar:什么时候用哪个

Spatius 包含可商用的高保真 stock avatar,开发者可以直接部署,不需要自定义生成。对很多场景来说,例如一般客服、产品 demo、HR intake,stock avatar 更快、更低维护。

Custom avatar generation 更适合以下情况:

  • 品牌身份需要特定 persona:品牌发言人、命名学习角色、公司吉祥物
  • 用户个性化:用户看到自己的 likeness 或自选形象,注意必须处理同意和隐私问题
  • 本地化:不同地区市场可能更接受本地熟悉的面孔

Avatar 生成使用独立配额系统,不消耗 credits。 Avatar 生成当前处于 Beta,配额由 Spatius 团队授予。生成失败会自动返还配额。

端侧渲染:为什么模型大小很重要

5-10 MB 的模型大小不是偶然,它是 3DGS 表示方式的直接结果,也是大规模端侧渲染的核心条件。

假设一个应用提供 10 个 custom avatar persona。每个模型 5-10 MB,首次会话加载并缓存在设备上,后续会话从缓存读取。单个 persona 的存储占用接近一张高分辨率图片。

云端推流方案则不会在本地缓存模型,而是每次会话都传输渲染后的视频。这样每个用户、每台设备、每次会话都会持续消耗网络带宽。

以 10 个并发用户首次加载为例:端侧方案最多传输 10 × 10 MB = 100 MB 的一次性模型数据;云端推流则是 10 ×(会话分钟数 × 1-2 MB/s × 60)的持续视频数据。只要会话不是极短,视频流传输量就会高出几个数量级。

这就是端侧渲染和紧凑 3DGS 模型能够改变 custom avatar 规模化经济性的原因。

更详细的带宽和成本对比可读:On-Device AI Avatar vs Cloud Streaming: Architecture, Bandwidth, and Cost in 2026

用自定义 Avatar 创建 3D Hologram 效果

同一个用于标准视频框的 3DGS 模型,也可以用于 hologram 和透明图层效果。因为 3DGS 原生支持 3D 图层分离,avatar 不是平面上的一张贴图,而是一个可独立合成的体积对象。

实际效果是,自定义 avatar 可以悬浮在演示文稿、零售产品展示或动态 dashboard 上方,不会出现传统绿幕抠图常见的边缘 artifact。

Web、iOS、Android 上的技术 walkthrough 可读:How to Make a Hologram Out of an AI Avatar
更完整的 hologram 设计和用例指南可读:AI Hologram: How to Build a Holographic AI Avatar in 2026

如何开始

在构建自定义模型前,最快的 3DGS avatar 渲染体验方式是 Spatius Playground。它使用同一套渲染引擎和 stock avatar 运行实时会话:spatius.ai/playground

Custom avatar generation 当前为 Beta,需要 Spatius 账号,配额由团队授予。可通过 hello@spatius.ai 联系团队。

SDK 文档和模型管理 API 可见:docs.spatius.ai


推荐阅读

custom AI avatar3DGSfacial matching SDKdigital human SDKsingle photo avatar
分享X (Twitter)LinkedIn