Stable Diffusion 中文教程

閱讀(7.5k) 收藏贊(0)

手冊簡介

Stable Diffusion 中文教程, AI繪畫 Stable Diffusion是2022年發(fā)布的深度學(xué)習(xí)文本到圖像生成模型。它主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像

手冊說明

X-Y_plot_of_algorithmically-generated_AI_art_by_different_science-fiction_subgenres

Stable Diffusion 主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像。

它是一種潛在?擴散模型，由慕尼黑大學(xué)的CompVis研究團體開發(fā)的各種生成性人工神經(jīng)網(wǎng)絡(luò)。它是由初創(chuàng)公司StabilityAI，CompVis與Runway合作開發(fā)的，并得到EleutherAI和LAION?的支持。截至2022年10月，StabilityAI籌集了1.01億美元的資金。

Stable Diffusion的代碼和模型權(quán)重已公開發(fā)布，可以在大多數(shù)配備有適度GPU的電腦硬件上運行。而以前的專有文生圖模型（如DALL-E和Midjourney）只能通過云計算服務(wù)訪問。

技術(shù)架構(gòu)

Stable_Diffusion_architecture

Stable Diffusion是一種擴散模型（diffusion model）的變體，叫做“潛在擴散模型”（latent diffusion model; LDM）。擴散模型是在2015年推出的，其目的是消除對訓(xùn)練圖像的連續(xù)應(yīng)用高斯噪聲，可以將其視為一系列去噪自編碼器。

Stable Diffusion由3個部分組成：變分自編碼器（VAE）、U-Net和一個文本編碼器。

用法

X-Y_plot_of_algorithmically-generated_AI_art_of_European-style_castle_in_Japan_demonstrating_DDIM_diffusion_steps

Stable Diffusion模型支持通過使用提示詞來產(chǎn)生新的圖像，描述要包含或省略的元素，以及重新繪制現(xiàn)有的圖像，其中包含提示詞中描述的新元素（該過程通常被稱為“指導(dǎo)性圖像合成”（guided image synthesis））通過使用模型的擴散去噪機制（diffusion-denoising mechanism）。此外，該模型還允許通過提示詞在現(xiàn)有的圖中進(jìn)內(nèi)聯(lián)補繪制和外補繪制來部分更改，當(dāng)與支持這種功能的用戶界面使用時，其中存在許多不同的開源軟件。

Stable Diffusion建議在10GB以上的VRAM下運行，但是VRAM較少的用戶可以選擇以float16的精度加載權(quán)重，而不是默認(rèn)的float32，以降低VRAM使用率。

文生圖

QQ截圖20230308115757

Stable Diffusion中的文生圖采樣腳本，稱為"txt2img"，接受一個提示詞，以及包括采樣器（sampling type），圖像尺寸，和隨機種子?的各種選項參數(shù)，并根據(jù)模型對提示的解釋生成一個圖像文件。生成的圖像帶有不可見的數(shù)字水印標(biāo)簽，以允許用戶識別由Stable Diffusion生成的圖像，盡管如果圖像被調(diào)整大小或旋轉(zhuǎn)，該水印將失去其有效性。 Stable Diffusion模型是在由512×512分辨率圖像組成的數(shù)據(jù)集上訓(xùn)練出來的，這意味著txt2img生成圖像的最佳配置也是以512×512的分辨率生成的，偏離這個大小會導(dǎo)致生成輸出質(zhì)量差。 Stable Diffusion 2.0版本后來引入了以768×768分辨率圖像生成的能力。

每一個txt2img的生成過程都會涉及到一個影響到生成圖像的隨機種子；用戶可以選擇隨機化種子以探索不同生成結(jié)果，或者使用相同的種子來獲得與之前生成的圖像相同的結(jié)果。用戶還可以調(diào)整采樣迭代步數(shù)（inference steps）；較高的值需要較長的運行時間，但較小的值可能會導(dǎo)致視覺缺陷。

反向提示詞（negative prompt）是包含在Stable Diffusion的一些用戶界面軟件中的一個功能，它允許用戶指定模型在圖像生成過程中應(yīng)該避免的提示，適用于由于用戶提供的普通提示詞，或者由于模型最初的訓(xùn)練，造成圖像輸出中出現(xiàn)不良的圖像特征，例如畸形手腳。與使用強調(diào)符相比，使用反向提示詞在降低生成不良的圖像的頻率方面具有高度統(tǒng)計顯著的效果；強調(diào)符是另一種為提示的部分增加權(quán)重的方法，被一些Stable Diffusion的開源實現(xiàn)所利用，在關(guān)鍵詞中加入括號以增加或減少強調(diào)。

圖生圖

Stable Diffusion包括另一個取樣腳本，稱為"img2img"，它接受一個提示詞、現(xiàn)有圖像的文件路徑和0.0到1.0之間的去噪強度，并在原始圖像的基礎(chǔ)上產(chǎn)生一個新的圖像，該圖像也具有提示詞中提供的元素；去噪強度表示添加到輸出圖像的噪聲量，值越大，圖像變化越多，但在語義上可能與提供的提示不一致。圖像升頻是img2img的一個潛在用例，除此之外。

2022年11月24日發(fā)布的Stable Diffusion 2.0版本包含一個深度引導(dǎo)模型，稱為"depth2img"，該模型推斷所提供的輸入圖像的深度?，并根據(jù)提示詞?和深度信息生成新圖像，在新圖像中保持原始圖像的連貫性和深度。

內(nèi)補繪制與外補繪制

Stable Diffusion模型的許多不同用戶界面軟件提供了通過img2img進(jìn)行圖生圖的其他用例。內(nèi)補繪制（inpainting）由用戶提供的蒙版描繪的現(xiàn)有圖像的一部分，根據(jù)所提供的提示詞，用新生成的內(nèi)容填充蒙版的空間。隨著Stable Diffusion 2.0版本的發(fā)布，StabilityAI同時創(chuàng)建了一個專門針對內(nèi)補繪制用例的專用模型。相反，外補繪制（outpainting）將圖像擴展到其原始尺寸之外，用根據(jù)所提供的提示詞生成的內(nèi)容來填補以前的空白空間。

Stable Diffusion 中文教程

手冊簡介

手冊說明

技術(shù)架構(gòu)

用法

文生圖

圖生圖

內(nèi)補繪制與外補繪制

更新記錄

多端閱讀

擴展欄目

開發(fā)工具IDE

編程訓(xùn)練營

Wiki列表