☰

筆記本也能生成4096x4096圖片？SANA輕鬆生成高分辨率圖像！

NVIDIA、麻省理工學院 (MIT) 和京都精華大學的研究團隊發佈了一款名爲“Sana”的圖像生成AI，它可以在幾秒鐘內生成分辨率高達4096×4096的圖像。

以下是用Sana實際生成的圖像範例。使用“astronaut in a jungle, cold color palette, muted colors, detailed,8k（叢林中的宇航員，冷色系，柔和的顏色，精細，8K）”的提示詞，可以生成這樣的圖像：

使用“a cyberpunk cat with a neon sign that says“SANA”（一隻帶有寫着“SANA”的霓虹燈的賽博龐克貓）”的提示詞生成的圖像是：

輸入“portrait photo of a girl, photograph, highly detailed face, depth of field（女孩的肖像照片，寫實，非常細緻的臉部，景深）”的提示詞，則生成了逼真的人物圖像：

根據Sana的開發團隊介紹，相較於傳統只能壓縮至8倍的自動編碼器（Autoencoder），Sana能通過對最大32倍壓縮的自動編碼器進行訓練，進而有效減少潛在標記的數量，實現高效的訓練和4K超高分辨率圖像的生成。

此外，Sana使用一個名爲“Gemma”的語言模型作爲文本編碼器，專門負責解碼器部分，這強化了對提示詞的理解與推理表現。不同於以往的T5模型，Gemma具有更強的文本理解能力，這能在應對訓練不穩定性時，改善圖像與文本的對應關係。同時，爲了減少採樣步驟，Sana引入了名爲“Flow-DPM-Solver”的機制，這使得采樣步驟從“Flow-Euler-Solver”的28至50步減少到14至20步，從而實現了更有效的標籤生成與選擇。

通過這些努力，Sana在保持與“Flux”等最新的高性能圖像生成AI相當的競爭力的同時，實現了超過100倍的圖像生成速度。開發團隊表示，參數大小爲6億的“SANA-0.6B”甚至可以部署在配備16GB內存容量GPU的筆記本上，生成1024×1024分辨率的圖像只需1秒鐘。以下是Sana圖像生成時間的比較圖，參數大小爲16億的“SANA-1.6B”可以1.2秒生成1024×1024的圖像，15.9秒生成4096×4096的圖像。此外，SANA-0.6B可以0.9秒生成1024×1024的圖像，僅需9.6秒即可生成4096×4096的圖像。

以下是一張Sana與各類圖像生成AI的性能比較表，顯示Sana的各個模型在生成速度和處理量上都遠超其他圖像生成AI。

目前，Sana的源碼尚未公開，但預計將在近日內發佈。

筆記本也能生成4096x4096圖片？SANA輕鬆生成高分辨率圖像！

相關資訊