筆記本也能生成4096x4096圖片?SANA輕鬆生成高分辨率圖像!

NVIDIA、麻省理工學院 (MIT) 和京都精華大學的研究團隊發佈了一款名爲“Sana”的圖像生成AI,它可以在幾秒鐘內生成分辨率高達4096×4096的圖像。

以下是用Sana實際生成的圖像範例。使用“astronaut in a jungle, cold color palette, muted colors, detailed,8k(叢林中的宇航員,冷色系,柔和的顏色,精細,8K)”的提示詞,可以生成這樣的圖像:

使用“a cyberpunk cat with a neon sign that says“SANA”(一隻帶有寫着“SANA”的霓虹燈的賽博龐克貓)”的提示詞生成的圖像是:

輸入“portrait photo of a girl, photograph, highly detailed face, depth of field(女孩的肖像照片,寫實,非常細緻的臉部,景深)”的提示詞,則生成了逼真的人物圖像:

根據Sana的開發團隊介紹,相較於傳統只能壓縮至8倍的自動編碼器(Autoencoder),Sana能通過對最大32倍壓縮的自動編碼器進行訓練,進而有效減少潛在標記的數量,實現高效的訓練和4K超高分辨率圖像的生成。

此外,Sana使用一個名爲“Gemma”的語言模型作爲文本編碼器,專門負責解碼器部分,這強化了對提示詞的理解與推理表現。不同於以往的T5模型,Gemma具有更強的文本理解能力,這能在應對訓練不穩定性時,改善圖像與文本的對應關係。同時,爲了減少採樣步驟,Sana引入了名爲“Flow-DPM-Solver”的機制,這使得采樣步驟從“Flow-Euler-Solver”的28至50步減少到14至20步,從而實現了更有效的標籤生成與選擇。

通過這些努力,Sana在保持與“Flux”等最新的高性能圖像生成AI相當的競爭力的同時,實現了超過100倍的圖像生成速度。開發團隊表示,參數大小爲6億的“SANA-0.6B”甚至可以部署在配備16GB內存容量GPU的筆記本上,生成1024×1024分辨率的圖像只需1秒鐘。以下是Sana圖像生成時間的比較圖,參數大小爲16億的“SANA-1.6B”可以1.2秒生成1024×1024的圖像,15.9秒生成4096×4096的圖像。此外,SANA-0.6B可以0.9秒生成1024×1024的圖像,僅需9.6秒即可生成4096×4096的圖像。

以下是一張Sana與各類圖像生成AI的性能比較表,顯示Sana的各個模型在生成速度和處理量上都遠超其他圖像生成AI。

目前,Sana的源碼尚未公開,但預計將在近日內發佈。