
這幾年AI繪圖發展迅速,好像看見當年智慧手機的進展。當然,它也替許多作者帶來不少的方便。
今年,有了新設備,於是燃起脫離Midjourney(以下簡稱MJ)的念頭,轉而開始研究StableDiffision,但是為了與之前MJ的風格相符,又看到了FLUX進而開始研究Comfyui這套平台。
如果想接觸,想必看到這裡應該還是一頭霧水,跟我當時一樣。
那接下來開始慢慢來說明,如果有興趣的話,也許能對出入手會有點幫助。也許啦!
11Please respect copyright.PENANAZdcH8ZaegE
StableDiffision(簡稱為SD),簡單來說就是一套生圖系統的名稱。如果要讓SD驅動產出圖片,使用的介面有AUTOMATIC1111 WebUI (A1111)、Comfyui、Fooocus、Forge(目前據說沒有更新了)。
一般通常都會從A1111開始進入,我也是。
11Please respect copyright.PENANA136mpSchDr
A1111
而A1111安裝基本上需要幾個軟體來輔助(網上通稱「架構環境」),所需要的有Python + Git + SD主程式。這三樣是運行最基本的。
關於安裝方式,可以自行上網估狗,初學者都不建議自行更變任何設定。還有,使用者多少都需要知道有些關於當年DOS的語法,其實都不難,只是需要點邏輯就行了。
1.Python:Python(派桑)是一種廣泛使用的程式設計語言,用於Web 應用程式、軟體開發、資料科學與機器學習(ML);他們都建議用3.10.6版,據說最穩定。
2.Git:是一個分散式版本控制軟體。實際上,如果主程式可以介入就不需要手動,但難免有時候需要做一些自行下載、安裝的動作,會使用上這些軟體的指令。
3.SD主程式:stable-diffusion-webui-master,解壓縮即可。好像前面的目錄最好不要有中文。
至於詳細安裝,很多YouTube上面都有,就不多作贅述。
11Please respect copyright.PENANAYXt5Y7tuwv
Comfyui
不久前,該團隊將原本安裝複雜的程序改為桌面板,只需要指定安裝目錄,下一步、下一步就完成桌面版了。至於要不要安裝Python和Git,我也不清楚,因為是從A1111跳過來的,所以建議是同樣安裝,反正在CMD下都會用得上。
Comfyui是我們這次的重點,因為它能吃許多模型格式,隨後會解釋。
好了,這是Comfyui的生圖流程,都稱為工作流(Workflow)。
沒錯,Comfyui擁有獨特的連連看,與A1111的網頁模式不一樣。但功能上都是大同小異的。
它的基礎流程從左到右只有這幾樣簡單的東西,統稱節點(Nodes),爾後的附加元件都是以這個模式基礎衍伸。
1.CHECKPOINT加載器:11Please respect copyright.PENANAWi116C92dx
主要是加載出圖模式的主模型,通常會包含大量訓練的圖片與文字理解和編碼。加載的主模型目前有分SD1.5、SDXL、PONY以及FLUX等等。
等等!先別急,有個概念很重要。這可是讓我走了很多冤枉路。
由於主模型的不同,對於生圖的原始大小有不同的規範,如果設定偏移太大,有可能會造成畫面的混亂、千手觀音或者臉部變形等等,更甚至,可能與後續加載的掛件產生無法匹配的狀況而報錯(新手的惡夢)。
所以選用的主模型必須要注意哦。
SD1.5 基礎尺寸512*512,或者512*76811Please respect copyright.PENANAOw4zGY15Ml
SDXL 基礎尺寸1024*102411Please respect copyright.PENANAYLAkGTYazQ
FLUX 基於SDXL開發,基礎尺寸都在1024以上。
看到這裡,應該會很貪心,想說我一定要選用FLUX對吧?哈。FLUX在某些掛件上沒有SD1.5或XL資源那麼多。如果要放大圖樣,有很多掛件可以使用,所以別擔心,以能達到目的為原則。
2.Clip:11Please respect copyright.PENANAz01bDpUUCW
文本。這就是要輸入提示詞的地方,也是讓模型能夠理解的文本區,有分正向與負向,顧名思義,正向就是會出現什麼;負向就是不會出現什麼。
網頁裡通常沒有負向提示詞,因為它們都已經預設好了。或者將正負提示詞融合,利用一些語法調整。
3.Laten:11Please respect copyright.PENANAz9H2GNvzNw
潛載空間。很虛幻,對吧!大概理解為它是提供下一個採樣器的範圍,也就是你要生出圖片大小的區域。這裡有很大的文章,但目前依舊不多作贅述。
4.Ksample:11Please respect copyright.PENANAtxnFjU0RIq
採樣器。負責將潛載空間填滿噪點(Noise),然後根據模型理解的提示詞,進而從這些噪點裡慢慢勾勒出畫面。
5.Laten decode & image output:11Please respect copyright.PENANAzyfTWz4SQn
這裡有兩部分,一個是把採樣器產生後的圖片解碼,然後就可以生出我們所看到的圖片了。
11Please respect copyright.PENANAfBNM5jx0Lt
以上,這就是本次最基礎的使用方式。
這裡的每一個部分都可以大作文章。如果理解並習慣了以上的流程,後續還有一些掛件必須要學習,譬如Rola(不是蘿拉哦,是風格)、Controlnet(動作控制)、IPadapter(風格遷移)、人臉或手部修復等等的。
再說,先前提到為何會用Comfyui呢?11Please respect copyright.PENANAdcWhlXspuH
因為它可以吃SD1.5、XL以及FLUX等格式,算是寬容度最大的。我曾經將FLUX掛載到A1111上,但效果並不好,且經過GPT認證,它的確不適合掛在A1111上。
難怪許多視頻都是從Comfyui或者Forge上入手。
當然,你也可以使用SD的模型,然後使用Flux的Rola,也是可以模擬出相同的效果。但我沒用過,這是GPT建議我的。
然而,想像總是美好,事實上這些介面並不如在遊戲中捏臉、捏身材、捏動作那麼簡單,而且因為這一兩年進步很快,很多視頻中的有可能過時,有新的掛件取代或者停更了。
這也是我在學習中遇到很大的困難,再者,有些掛件需要安裝一些依賴(depends,可以理解為掛件所需要的環境)。頭腦要隨時保持清晰,這樣才不會混亂,建議都要看看該掛件所附加的說明檔,這以後會提到。
最後,有需要什麼,再安裝什麼掛件,因為它並不是如同過去的軟件那麼成熟,不能排除某些掛件會衝突。
我曾經看了視頻,拼命安裝掛件,然後開始請GPT排錯,最後將Comfyui搞掛好幾次,反覆刪除安裝(這不好搞,要刪得乾乾淨淨才能重新安裝),最後終於學乖了,耐下性子慢慢看它附加的說明檔。11Please respect copyright.PENANAOVC3GNmhyK
每次都要Debug的日子真是痛苦。
最後,建議從A1111以及SD的核心開始玩起。
如果要使用Flux,要注意與掛件模型配合的問題(因為有些基於SD1.5或XL,並不相容)。否則一整天都給你狂報錯,讓你搞不清楚哪裡出問題,然後GPT也會引導你走向很奇怪的debug之路;即使沒錯誤,也會給你產出很奇怪的圖。
Flux的確某些程度上很強大,如我最近很喜歡的Flux fill 和 Pulid 2。但我學著學著之間,也感受到它的「權重」的確比SD還難控制,都要多次調整以及測試。
目前學藝不精,但這是小夜能給的忠告。
11Please respect copyright.PENANACq0Cd0Y5YD
結語:11Please respect copyright.PENANAgVGB7DJzuo
看到這裡,是不是有點打退堂鼓了?
我得坦白,有陣子的確覺得很難搞,甚至有些沮喪,真是跨界打了魔王。
無論視頻怎麼講,看都懂,但就不知道流程在搞什麼,我都無法理解。總覺得網頁的生圖AI真方便,但……它們畢竟是商用網站,方便使用者是首要任務,不過關於自由度就限制了不少,畢竟是公眾與商用網站嘛。
如果時間及設備允許,或許好好理解它,那麼也許不論在網頁或者持續投入研究,可能會有更大的理解與收穫。
好了,這次難得胡言亂語這麼久。
等過幾日,又想胡言亂語了,我再繼續分享目前學到的心得。下回見囉~如果還有下一回的話。
ns3.137.174.104da2