• 瀏覽: 217
+7
[隱藏]
機器之心報道

編輯:陳萍、小舟

AI會是未來的「造物者」嗎?

近來,視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現在一個新視覺合成模型 Nüwa(女媧)也火了。

相比於 GauGAN,「女媧」的生成模式更加多樣,不僅有文字塗鴉生成影象,還能從文字生成視訊。


隨著 VQ-VAE 這種離散化 VAE 方案的出現,高效和大規模的預訓練被逐漸應用於視覺合成任務,例如 DALL-E(影象)、GODIVA(視訊)。這些模型雖然取得了巨大的成功,但仍然存在一些侷限性——它們分別處理影象和視訊,專注於生成其中一種,這限制了模型從影象和視訊資料中受益。相比之下,「女媧」是一個統一的多模態預訓練模型,在 8 種包含影象和視訊處理的下游視覺任務上具有出色的合成效果。


論文地址:https://arxiv.org/pdf/2111.12417.pdf

GitHub 地址:https://github.com/microsoft/NUWA

模型概覽

該研究提出了一個通用的 3D transformer——編碼器 - 解碼器框架(如下圖所示),同時涵蓋了語言、影象和視訊,可用於多種視覺合成任務。該框架由以文字或視覺草圖作為輸入的自適應編碼器和由 8 個視覺合成任務共享的解碼器組成。


「女媧」整體架構圖。

該框架還包含一種 3D Nearby Attention (3DNA) 機制,以考慮空間和時間上的區域性特徵。3DNA 不僅降低了計算複雜度,還提高了生成結果的視覺質量。與幾個強大的基線相比,「女媧」在文字到影象生成、文字到視訊生成、視訊預測等方面都得到了 SOTA 結果。此外,「女媧」還顯示出驚人的零樣本學習能力。

「女媧」的 8 種跨模態合成模式分別是:

文字轉影象:



塗鴉轉影象:



影象補全:





根據文字編輯影象:



文字轉視訊:




視訊預測:


塗鴉轉視訊:


根據文字編輯視訊:


實驗結果

還研究通過多項實驗評估了合成結果。

首先研究者將「女媧」在三個資料集上進行預訓練:用於文字 - 影象 (T2I) 生成的 Conceptual Captions,包括 2.9M 文字 - 影象對;用於視訊預測 (V2V) 的 Moments in Time,包括 727K 視訊;用於文字 - 視訊 (T2V) 生成的 VATEX 資料集,包括 241K 文字 - 視訊對。

與 SOTA 方法比較

文字 - 影象 (T2I) 微調:該研究比較了「女媧」在 MSCOCO 資料集上的效能,如表 1 和圖 3 所示:在表 1 中,「女媧」明顯優於 CogView,其中 FID-0 為 12.9,CLIPSIM 為 0.3429 。儘管 XMC-GAN 的 FID-0 為 9.3,優於「女媧」,但「女媧」能生成更逼真的影象,如圖 3 所示。特別是在最後一個例子中,「女媧」生成的男孩臉更清晰,並且男孩旁邊的氣球也很逼真。



文字 - 視訊 (T2V) 微調:該研究在 Kinetics 資料集上評估了「女媧」,結果如表 2 和圖 4 所示。在表 2 中,「女媧」在所有指標上實現了最好的效能。



在圖 4 中,該研究還展示了「女媧」強大的零樣本生成能力,可以生成沒見過的影象,例如:在游泳池裡打高爾夫球,在海里奔跑:

視訊預測 (V2V) 微調:該研究在 BAIR Robot Pushing 資料集上對「女媧」和其他模型進行了比較,結果如表 3 所示:為了進行公平比較,所有模型都使用 64×64 解析度。雖然只給出了一幀作為條件(Cond.),但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。



草圖 - 影象 (S2I)微調:該研究在 MSCOCO stuff 上進行實驗,如圖 5 所示。與 Taming-Transformers 和 SPADE 相比,「女媧」生成了種類繁多的逼真汽車, 甚至巴士車窗的反射也清晰可見。



影象補全 (I2I) 零樣本評估:給定塔樓的上部,與 Taming Transformers 模型進行比較,「女媧」可以生成對塔樓下半部分更豐富的想象,包括生成周圍建築物、湖泊、花草、樹木、山脈等。



文字 - 指導影象處理 (TI2I) 零樣本評估:「女媧」顯示了其強大的處理能力,可以生成高質量的文字一致性結果,而不會改變影象的其他部分。



消融實驗

圖 5 顯示了文字 - 視訊 (T2V) 生成任務中多工預訓練的有效性。該研究在具有挑戰性的資料集 MSR-VTT(具有自然描述和真實視訊) 上進行了實驗。「女媧」FID-vid 為 47.68,CLIPSIM 為 0.2439。



圖 9 顯示了文字指導視訊處理(TV2V)。第一行顯示了原始視訊幀,潛水員在潛水;第二行為潛水員正在向水面遊;第三行顯示可以讓潛水員游到海底,如果我們想生成讓潛水員飛向天空的圖片?「女媧」可以實現,從圖中可以看出,潛水員像火箭一樣飛向天空。



2021 NeurIPS MeetUp China

受疫情影響,NeurIPS 2021依然選擇了線上的形式舉辦。雖然這可以為大家節省一筆註冊、機票、住宿開支,但不能線下參與這場一年一度的學術會議、與學術大咖近距離交流討論還是有些遺憾。

我們將在NeurIPS官方支援下,於12月11日在上海博雅酒店舉辦線下NeurIPS MeetUp China,促進國內人工智慧學術交流。

2021 NeurIPS MeetUp China將設定 Keynote、圓桌論壇、論文分享、 Poster和企業招聘等環節,邀請頂級專家、論文作者與現場參會觀眾共同交流。



原文連結:https://inewsdb.com/數碼/AI版“女媧”來了!文字生成影象、視訊,8類

inewsdb.com 日日新聞 . 掌握每日新鮮事



inewsdb.com 日日新聞 . 掌握每日新鮮事
[按此隱藏 Google 建議的相符內容]