圖像生成新霸主!目前最強大文生圖開源模型FLUX

就在Midjourney進行大更新的第二天,開源圖像生成領域迎來了新的黑馬—FLUX.1。這款新模型不僅聲稱性能超越DALL·E3、Midjourney V6等閉源模型,還大幅領先於開源的SD3系列。 FLUX.1可以 準確生成人手和手指,這一問題 一直是AI圖像生成模型的一大挑戰,而FLUX.1在這方面取得了突破性進展。(在線訪問和Github以及ComfyUI在文章底部)

FLUX.1的創始人Robin Rombach是擴散模型領域的權威專家,他曾領導了Stable Diffusion系列項目。今年3月,由於Stability AI內部動盪,Robin選擇離開。經過四個月,他帶着新的開源大模型平臺FLUX.1重磅迴歸。FLUX.1一亮相就獲得了由Andreessen Horowitz領投的3200萬美元種子輪融資,這無疑爲其未來發展注入了強勁動力。

FLUX.1模型家族包括三個變體:FLUX.1 [pro] 商業用途、FLUX.1 [dev] 學術研究和FLUX.1 [schnell] 本地開發,分別針對商業應用、學術研究和個人使用進行了優化。

模型特性

大規模參數:擁有12B(120億)參數,是迄今爲止最大的開源文本到圖像模型之一。

多模態架構:基於多模態和並行擴散Transformer塊的混合架構,提供強大的圖像生成能力。

圖像質量:在視覺質量、提示詞遵循、大小/縱橫比可變性、字體和輸出多樣性等方面超越了其他流行的模型。

技術創新:引入了流匹配訓練方法、旋轉位置嵌入和並行注意力層,提高了模型性能和硬件效率。

FLUX.1模型採用並行擴散Transformer塊,通過高效處理序列數據,增強了信息編碼和解碼能力。使用流匹配訓練方法簡化了訓練過程並提高生成質量,同時引入旋轉位置嵌入技術,提升了圖像細節表現。並行注意力層使模型能同時關注輸入序列中的多個部分,捕捉長距離依賴關係,提高生成圖像的準確性。

所有 FLUX.1 型號都支持不同的長寬比和分辨率(10 萬和 200 萬像素),如下圖所示。

以replicate爲例,可以看到左側可以調整提示詞、比率以及輸出質量等。

LUX.1 在文字生成、複雜指令遵循和人手生成上具備優勢。

具體示例+提示詞

超現實:abstract chrome 80s scifi automaton, airbrush

文字:

真實人物:kyle sleeping on the couch

動物:professional photograph of a lynx lit by moody harsh lighting in the middle of a forest

風景:

歡迎交流~,帶你學習AI,瞭解AI