谷歌最新模型 AI 一键试衣，细节不变姿势随意换

时间：2023-06-21 03:04:26　来源：网络整理　作者：bianji123

谷歌最新款AI一键试衣，细节不变，姿势随意变换

2023/6/20 12:48:14 责任编辑：梦泽

谷歌新的 AI 模型直接解决了 AI 穿衣的两大难题——既能保留衣服的细节，又能随意变换姿势。以后怕是更容易剁手了！

一键换脸，谷歌实现！

对于这个AI试衣模型，你只需要给它一张自己的全身照和一张服装模特的照片，你就可以知道自己穿上这件衣服后会是什么样子。

最主要的是一个事实。那么，奇迹暖暖是真人版吗？

按说百思特网换了很久的AI也不少。谷歌AI模型有何突破？

项目地址：

关键是他们提出了一个基于扩散的框架，统一了两个Unet。

过去，这类模型的关键挑战是如何保留衣服的细节，同时让衣服变形，同时适应不同主体的姿势和造型，让人感觉不到不一致。

以前的方法不能同时做到这两个，要么只能保留服装细节，不能处理姿势和形状的变化，要么可以改变姿势，但服装细节会丢失。

并且由于两个 UNet 的统一，可以在单个网络中保留服装细节并对服装进行重要的姿势和身体变化。

可以看到人物身上的衣服变形非常自然，衣服的细节也还原的很好。

话不多说，让我们直接看看谷歌的“AI试穿”有多厉害吧！

使用 AI 生成试穿图像

具体来说，试穿 (VTO) 可以向客户展示衣服在不同形状和尺寸的真实模特身上的效果。

虚拟试衣中有许多微妙但至关重要的细节，例如衣服如何悬垂、折叠、合身、拉伸和起皱。

以百思特网前存在的技术，例如（几何变形），可以剪切和粘贴衣服的图像，然后将它们变形以适合身体的轮廓。

但由于这些特点，衣服很难合身，而且存在一些视觉上的缺陷，如褶皱位置错位，使衣服看起来畸形、不自然。

因此，谷歌的研究人员致力于从头开始生成衣服的每个像素，以生成高质量、逼真的图像。

他们使用的技术是一种全新的基于人工智能的模型。

扩散是逐渐向图像添加额外像素（或“噪声”）直到变得无法识别，然后完全消除噪声直到以完美质量重建原始图像。

像这样的文本到图像模型，使用来自大型语言模型 LLM 的 Plus Text，可以仅从输入文本生成逼真的图像。

就是逐渐给图像添加额外的像素（或“噪声”），直到变得无法辨认，然后完全去除噪声，直到以完美的质量重建原始图像。

在中，不使用文字，而是使用一对图片：一张图片是衣服（或穿衣服的模特），一张图片是模特。

每张图片都被发送到自己的神经网络 (U-net)，该网络通过称为“交叉注意力”的过程相互共享信息，输出穿着这件衣服的模特的新照片级逼真图像。

这种基于图像和交叉注意力的结合构成了这个人工智能模型的核心。

VOT功能让用户可以在符合自己体型的模特上渲染展示上装。海量高质量数据训练

为了让门口机的功能尽可能逼真，真正帮助用户挑选衣服，谷歌在这个AI模型上做了大量的训练。

然而，谷歌没有使用大型语言模型来训练它，而是利用了谷歌的购物图。

该数据集拥有世界上最全面和最新的产品、卖家、品牌、评论和库存数据。

谷歌使用成对图像训练模型，每对图像由两种不同姿势的穿着模特的图像组成。

例百思特网如，一个身穿衬衫的人侧身站立而另一个人向前站立的图像。

谷歌的专业扩散模型将图像输入他们自己的神经网络 (U-net) 以生成输出：穿着这件衣服的模特的逼真图像。

在这对训练图像中，模型学习将侧身姿势的衬衫形状与前向姿势的人物相匹配。

反之亦然，直到它可以从各个角度生成穿着衬衫的人的逼真图像。

为了追求更好的结果，谷歌使用数百万不同服装和人物的随机图像对多次重复该过程。

结果就是我们在文章开头的图片中看到的。

总之，既保留了衣服的细节，又适应了新模特的身材和姿势。谷歌的技术两者都做到了，而且效果相当逼真。

技术细节

以一张显示模特身体的图像和另一张显示另一名模特穿着某种服装的图像为条件，目标是生成服装可能如何出现在人身上的视觉表示。

解决该问题的关键难点在于在保持服装细节逼真度的同时，对服装进行适当的变形以适应不同模特之间姿势和体型的变化。

以前的方法要么侧重于保留衣服细节，但不能有效地处理姿势和形状变化。

两者都允许根据所需的体型和姿势提供合身效果，但缺少服装的细节。

提出了一种基于将两个 UNet（称为 -UNet）合二为一的架构，能够在单个网络中保留服装细节并对服装试穿效果做出明显的姿势和身体变化。

-UNet 的主要思想包括：

1）通过交叉注意力机制隐式地为衣服做褶皱；

2) 服装折叠和角色融合是一个统一的过程，而不是两个独立任务的序列。

实验结果在定性和定量上都证明了最先进的性能。

具体实现方法如下图所示。

在预处理步骤中，从人物图像中分割出目标人物以创建“无衣服 RGB”图像，从服装图像中分割出目标服装，并计算人物图像和服装图像的姿势。

这些信息输入被带入 128128-UNet（关键步骤）以创建试穿图像，该图像与试穿条件的输入一起进一步发送到 256256-UNet 作为输入。

然后将 256256-UNet 输出发送到标准超分辨率扩散（super）以创建 10241024 图像。

上面整个过程中最重要的128128-UNet的结构和处理如下图所示。

将与衣服无关的 RGB 和噪声图像馈送到 top-UNet。

由于两个输入都是像素对齐的，因此在 UNet 处理开始时，两个图像直接沿着通道维度 ( ) 连接。

由于两个输入都是像素对齐的，我们在 UNet 处理开始时直接沿着通道维度将它们连接起来。

将分割后的服装图像送入底部的-UNet。

通过交叉注意力将服装特征融合到目标图像中。

为了保留模型参数，谷歌研究人员在 3232 () 之后提前停止了 -UNet，此时 -UNet 中的最终交叉注意力模块（final cross）已经完成。

人和衣服的姿势首先被送入线性层以分别计算姿势嵌入。

然后通过注意力机制将姿势嵌入融合到 UNet 中。

此外，它们还用于使用 FiLM 在所有尺度上调制两个 UNet 的特征。

与主流技术的比较

用户调查研究：对于每组输入图像，15 个普通用户从 4 种替代技术中选择一种他们认为最好的，或者选择“无法区分”。明显优于其他技术。

下图从左到右分别是“输入、SDAFN、HR-VITON、谷歌的方法”。

局限性

但是有一些限制。

首先，如果在预处理过程中分割图和姿态估计存在错误，谷歌的方法可能会出现服装泄漏伪影。

幸运的是，近年来这种准确性有了很大提高，而且这种情况并不经常发生。

其次，不包括RGB脱衣来展示身体并不理想，因为有时它可能只能保留一部分身份。

例如，纹身在这种情况下是不可见的，某些肌肉结构也是如此。

第三，我们的训练和测试数据集通常具有干净、均匀的背景，因此不确定该方法在更复杂的背景上的表现如何。

第四，我们不能保证服装是否真的合身于模特身上，我们只注重试穿的视觉效果。

最后，这项研究的重点是上半身的服装。谷歌目前还没有试验过全身试穿效果，未来会进一步研究全身效果。

参考：

本文地址：https://www.best73.com/zdmzt/267921.html

特别声明：以上内容来源于编辑整理发布，如有不妥之处，请与我方联系删除处理。

上一篇：消息称谷歌 Pixel 7a 手机所用 Tensor G2 芯片采用 IPOP
下一篇：倍思推出 D03 头戴式蓝牙耳机：40mm 动圈、30 小时续航，109 元

相关资讯 查看更多

综合资讯

谷歌最新模型 AI 一键试衣，细节不变姿势随意换

谷歌最新模型 AI 一键试衣，细节不变姿势随意换