南京大学发布AvatarBooth 可用文本生成3D人类化身
(资料图片)
站长之家(ChinaZ.com)6月27日 消息:过去,元宇宙曾经大热,但之后却被冷落。一个很大的原因是生成3D化身的方法大多需要昂贵且复杂的采集设备,以构建高保真的化身模型。因此,对于消费级别的应用开发来说难以负担。
现在,南京大学的研究人员提出了一种全新的方法AvatarBooth。该方法可以生成高质量和可定制的化身,能够准确反映特定个体的视觉和文字特征。与之前只能基于简单文本描述生成化身的方法不同,该方法可以根据任意捕获的面部或身体图像生成个性化头像,并支持基于文本的模型生成和编辑。
论文链接:https://arxiv.org/pdf/2306.09864.pdf
项目链接:https://zeng-yifei.github.io/avatarbooth_page/
AvatarBooth通过学习一个神经隐含表面来表示人类化身的形状和外观。该模型使用脸部和身体的预训练或微调的潜扩散模型来监督学习。姿势一致的约束被提出,在外观定制生成的任务中加强了扩散模型的微调,提供了更准确的多视图监督,在姿势空间中具有一致的外观。模型中还包括一个多分辨率的SDS方案,可以从粗到细地预测化身的精细结构和外观。
只需要一人的几张照片,模型就可以合成3D化身。化身不仅具有个性化独特的外观,而且还可以符合输入文本提示中指定的抽象特征,如「戴眼镜」或「某种风格的帽子」等属性。用户可以方便地编辑和修改化身的整体视觉形象。
为了量化化身生成质量,研究人员招募了30名志愿者,并使用对比方法CLIP-Actor、AvatarCLIP和TEXTure生成了10个化身。每个用户都从四个方面(与文本提示的对应性、外观质量、几何质量和面部的保真度)对结果进行评估,分数范围从1(最差)到5(最好)。结果表明,文中提出的新方法在四个指标上都获得了最高分,证明该模型有能力生成具有更详细外观和几何形状的化身。
关键词: