在时尚科技领域,人工智能(AI)的应用正不断推动行业边界。谷歌的最新虚拟试衣(VTO)功能,就是一个利用AI技术为用户带来衣物在不同体型模特上逼真视觉效果的创新工具。它甚至模拟了衣物的悬垂、折叠、贴合、拉伸和皱褶等关键元素。谷歌购物AI研究者开发的这种生成式AI模型,正在重新定义虚拟时尚的边界。让深入了解这一激动人心的发展,并探讨它如何改变在线购买衣物的方式。
谷歌通过引入一项新功能,为虚拟试衣领域树立了新的现实主义标准。借助这项虚拟试衣工具,用户现在可以设想衣物在真实模特上的外观,准确呈现各种体型和尺寸。谷歌的购物AI研究者专注于衣物悬垂、折叠、贴合、拉伸和皱褶等关键细节,开发了一种生成式AI模型,为用户提供了前所未有的虚拟购物体验。
自电影《独领风骚》中虚拟试衣的流行描绘以来,虚拟试衣技术已经取得了长足的进步。以往的技术依赖于几何形变,将衣物图像适配到轮廓上,常常导致变形和不自然的外观。这些方法未能适应衣物与身体的贴合,常常出现视觉缺陷,如错位的褶皱。谷歌新的虚拟试衣功能旨在通过从零开始生成高质量的、逼真的衣物图像,超越这些局限性。
为了实现无与伦比的现实主义,谷歌的研究者采用了基于扩散的AI模型。扩散涉及逐渐向图像添加额外的像素(或“噪声”),直到图像变得无法识别,然后去除噪声以完美重建原始图像。通过将扩散融入他们的AI模型,谷歌的虚拟试衣功能能够生成穿着衣物的人的逼真图像。
虚拟试衣的一个关键挑战是准确可视化衣物在个体上如何合身,考虑到显著的姿势和形状变化。以往的方法要么专注于保留衣物细节而不适应姿势和形状变化,要么允许在期望的姿势和形状下试穿,但缺乏衣物细节。谷歌的解决方案结合了先进的衣物细节保留和有效的姿势和形状变化,从而实现了精确和逼真的可视化。
要理解谷歌AI模型的内部工作原理,必须掌握扩散的概念。在像Imagen这样的文本到图像模型中,扩散涉及逐渐向图像添加噪声直到它变得无法识别,然后去除噪声以重建原始图像。结合大型语言模型(LLM),这个过程可以根据纯文本输入生成逼真的图像。
谷歌的研究者从Imagen中汲取灵感,采用扩散进行虚拟试衣,但有所创新。他们不是使用文本输入,而是将一对图像——衣物图像和人物图像——融入扩散过程。这两张图像通过神经网络相互交互,利用一种称为“交叉注意力”的技术。这种基于图像的扩散和交叉注意力的新颖组合构成了谷歌虚拟试衣AI模型的基础。
为确保虚拟试衣功能尽可能有帮助和逼真,谷歌的研究者使用谷歌购物图谱提供的庞大数据集来训练他们的AI模型。这个全面的数据集包括最新的产品、卖家、品牌、评论和库存,提供了丰富的信息以增强虚拟试衣体验的准确性和质量。
谷歌的AI模型经过了严格的训练,以掌握生成逼真衣物可视化的艺术。通过使用数百万张展示人们在各种姿势下穿着衣物的图像对,AI模型学会了将衣物形状与不同的身体姿势相匹配。这一广泛的训练过程使AI模型能够从多个角度生成不同模特穿着衣物的高度逼真图像。