☰

圖像生成新霸主！目前最強大文生圖開源模型FLUX

就在Midjourney進行大更新的第二天，開源圖像生成領域迎來了新的黑馬—FLUX.1。這款新模型不僅聲稱性能超越DALL·E3、Midjourney V6等閉源模型，還大幅領先於開源的SD3系列。 FLUX.1可以準確生成人手和手指，這一問題一直是AI圖像生成模型的一大挑戰，而FLUX.1在這方面取得了突破性進展。（在線訪問和Github以及ComfyUI在文章底部）

FLUX.1的創始人Robin Rombach是擴散模型領域的權威專家，他曾領導了Stable Diffusion系列項目。今年3月，由於Stability AI內部動盪，Robin選擇離開。經過四個月，他帶着新的開源大模型平臺FLUX.1重磅迴歸。FLUX.1一亮相就獲得了由Andreessen Horowitz領投的3200萬美元種子輪融資，這無疑爲其未來發展注入了強勁動力。

FLUX.1模型家族包括三個變體：FLUX.1 [pro] 商業用途、FLUX.1 [dev] 學術研究和FLUX.1 [schnell] 本地開發，分別針對商業應用、學術研究和個人使用進行了優化。

模型特性

大規模參數：擁有12B（120億）參數，是迄今爲止最大的開源文本到圖像模型之一。

多模態架構：基於多模態和並行擴散Transformer塊的混合架構，提供強大的圖像生成能力。

圖像質量：在視覺質量、提示詞遵循、大小/縱橫比可變性、字體和輸出多樣性等方面超越了其他流行的模型。

技術創新：引入了流匹配訓練方法、旋轉位置嵌入和並行注意力層，提高了模型性能和硬件效率。

FLUX.1模型採用並行擴散Transformer塊，通過高效處理序列數據，增強了信息編碼和解碼能力。使用流匹配訓練方法簡化了訓練過程並提高生成質量，同時引入旋轉位置嵌入技術，提升了圖像細節表現。並行注意力層使模型能同時關注輸入序列中的多個部分，捕捉長距離依賴關係，提高生成圖像的準確性。

所有 FLUX.1 型號都支持不同的長寬比和分辨率（10 萬和 200 萬像素），如下圖所示。

以replicate爲例，可以看到左側可以調整提示詞、比率以及輸出質量等。

LUX.1 在文字生成、複雜指令遵循和人手生成上具備優勢。

具體示例+提示詞

超現實：abstract chrome 80s scifi automaton, airbrush

文字：

真實人物：kyle sleeping on the couch

動物：professional photograph of a lynx lit by moody harsh lighting in the middle of a forest

風景：

歡迎交流～，帶你學習AI，瞭解AI

圖像生成新霸主！目前最強大文生圖開源模型FLUX

相關資訊