Stable Diffusion 中文教程, AI繪畫 Stable Diffusion是2022年發(fā)布的深度學(xué)習(xí)文本到圖像生成模型。它主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像
Stable Diffusion 主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像。
它是一種潛在?擴散模型,由慕尼黑大學(xué)的CompVis研究團體開發(fā)的各種生成性人工神經(jīng)網(wǎng)絡(luò)。它是由初創(chuàng)公司StabilityAI,CompVis與Runway合作開發(fā)的,并得到EleutherAI和LAION?的支持。 截至2022年10月,StabilityAI籌集了1.01億美元的資金。
Stable Diffusion的代碼和模型權(quán)重已公開發(fā)布,可以在大多數(shù)配備有適度GPU的電腦硬件上運行。而以前的專有文生圖模型(如DALL-E和Midjourney)只能通過云計算服務(wù)訪問。
Stable Diffusion是一種擴散模型(diffusion model)的變體,叫做“潛在擴散模型”(latent diffusion model; LDM)。擴散模型是在2015年推出的,其目的是消除對訓(xùn)練圖像的連續(xù)應(yīng)用高斯噪聲,可以將其視為一系列去噪自編碼器。
Stable Diffusion由3個部分組成:變分自編碼器(VAE)、U-Net和一個文本編碼器。
Stable Diffusion模型支持通過使用提示詞來產(chǎn)生新的圖像,描述要包含或省略的元素,以及重新繪制現(xiàn)有的圖像,其中包含提示詞中描述的新元素(該過程通常被稱為“指導(dǎo)性圖像合成”(guided image synthesis))通過使用模型的擴散去噪機制(diffusion-denoising mechanism)。 此外,該模型還允許通過提示詞在現(xiàn)有的圖中進(jìn)內(nèi)聯(lián)補繪制和外補繪制來部分更改,當(dāng)與支持這種功能的用戶界面使用時,其中存在許多不同的開源軟件。
Stable Diffusion建議在10GB以上的VRAM下運行, 但是VRAM較少的用戶可以選擇以float16的精度加載權(quán)重,而不是默認(rèn)的float32,以降低VRAM使用率。
Stable Diffusion中的文生圖采樣腳本,稱為"txt2img",接受一個提示詞,以及包括采樣器(sampling type),圖像尺寸,和隨機種子?的各種選項參數(shù),并根據(jù)模型對提示的解釋生成一個圖像文件。 生成的圖像帶有不可見的數(shù)字水印標(biāo)簽,以允許用戶識別由Stable Diffusion生成的圖像,盡管如果圖像被調(diào)整大小或旋轉(zhuǎn),該水印將失去其有效性。 Stable Diffusion模型是在由512×512分辨率圖像組成的數(shù)據(jù)集上訓(xùn)練出來的,這意味著txt2img生成圖像的最佳配置也是以512×512的分辨率生成的,偏離這個大小會導(dǎo)致生成輸出質(zhì)量差。 Stable Diffusion 2.0版本后來引入了以768×768分辨率圖像生成的能力。
每一個txt2img的生成過程都會涉及到一個影響到生成圖像的隨機種子;用戶可以選擇隨機化種子以探索不同生成結(jié)果,或者使用相同的種子來獲得與之前生成的圖像相同的結(jié)果。 用戶還可以調(diào)整采樣迭代步數(shù)(inference steps);較高的值需要較長的運行時間,但較小的值可能會導(dǎo)致視覺缺陷。
反向提示詞(negative prompt)是包含在Stable Diffusion的一些用戶界面軟件中的一個功能,它允許用戶指定模型在圖像生成過程中應(yīng)該避免的提示,適用于由于用戶提供的普通提示詞,或者由于模型最初的訓(xùn)練,造成圖像輸出中出現(xiàn)不良的圖像特征,例如畸形手腳。 與使用強調(diào)符相比,使用反向提示詞在降低生成不良的圖像的頻率方面具有高度統(tǒng)計顯著的效果;強調(diào)符是另一種為提示的部分增加權(quán)重的方法,被一些Stable Diffusion的開源實現(xiàn)所利用,在關(guān)鍵詞中加入括號以增加或減少強調(diào)。
Stable Diffusion包括另一個取樣腳本,稱為"img2img",它接受一個提示詞、現(xiàn)有圖像的文件路徑和0.0到1.0之間的去噪強度,并在原始圖像的基礎(chǔ)上產(chǎn)生一個新的圖像,該圖像也具有提示詞中提供的元素;去噪強度表示添加到輸出圖像的噪聲量,值越大,圖像變化越多,但在語義上可能與提供的提示不一致。 圖像升頻是img2img的一個潛在用例,除此之外。
2022年11月24日發(fā)布的Stable Diffusion 2.0版本包含一個深度引導(dǎo)模型,稱為"depth2img",該模型推斷所提供的輸入圖像的深度?,并根據(jù)提示詞?和深度信息生成新圖像,在新圖像中保持原始圖像的連貫性和深度。
Stable Diffusion模型的許多不同用戶界面軟件提供了通過img2img進(jìn)行圖生圖的其他用例。內(nèi)補繪制(inpainting)由用戶提供的蒙版描繪的現(xiàn)有圖像的一部分,根據(jù)所提供的提示詞,用新生成的內(nèi)容填充蒙版的空間。 隨著Stable Diffusion 2.0版本的發(fā)布,StabilityAI同時創(chuàng)建了一個專門針對內(nèi)補繪制用例的專用模型。 相反,外補繪制(outpainting)將圖像擴展到其原始尺寸之外,用根據(jù)所提供的提示詞生成的內(nèi)容來填補以前的空白空間。