2023-08-04

AI生成画像ハムスター

プロンプト（呪文）

prompt:(8k, best quality, masterpiece:1.2, ultra high res, photorealistic, Super Detail),cute child hamster, realistic, high quality, masterpiece, HD,

Negative prompt: (zombie, sketch, interlocked fingers,comic), (worst quality, low quality:1.4), nsfw

Steps: 30, Sampler: DPM++ 2S a Karras, CFG scale: 7

日本語

プロンプト:(8k、最高品質、傑作:1.2、超高解像度、フォトリアリスティック、スーパーディテール)、かわいい子ハムスター、リアル、高品質、傑作、HD、

否定的なプロンプト: (ゾンビ、スケッチ、連動した指、コミック)、(最悪の品質、低品質: 1.4)、nsfw

ステップ: 30、サンプラー: DPM++ 2S a Karras、CFG スケール: 7

2023-08-02

Stable DiffusionをWindows環境にボタン1つでインストール可能NMKD Stable Diffusion GUI

「NMKD Stable Diffusion GUI」は、テキストによる指示でAIが画像を生成するツールです。英Stability AIが発表した画像生成AI「Stable Diffusion」のWindows向けGUIツールで、Pythonやコマンドラインの知識がなくても使えます ¹ ²。インストール方法や使い方は、以下のサイトを参考にしてください。

2023-07-31

stable diffusion導入方法の参考になるサイト

stable diffusion導入方法の参考サイトを見つけました。

「Stable diffusion」をPCにさくっとインストールする方法をわかりやすく解説 ¹：PythonとGitのインストールから、Stable Diffusionの起動までの手順が詳しく説明されています。
Stable Diffusionのおすすめモデル一覧！導入方法や商用利用も解説 ²：Stable Diffusionで使えるモデルの紹介や、モデルのダウンロード方法が書かれています。
Stable Diffusionのインストール方法を紹介！【初心者でも簡単な方法】³：クリックだけでStable Diffusionをインストールできる方法が紹介されています。

これらのサイトを参考にして、stable diffusion導入してみてください。😊

2023-07-31

stable diffusionとは？話題の画像生成AIの仕組みを徹底解説！

はじめに

stable diffusionとは、Stability AI社が開発・提供している画像生成AIです。ユーザーが入力した呪文（プロンプト）を基にイラストを生成してくれます。stable diffusionは、潜在拡散モデル（英: latent diffusion model）という技術を用いて画像を生成しています。この記事では、stable diffusionの仕組みや技術的な背景について解説します。

潜在拡散モデルとは？

潜在拡散モデルとは、機械学習の分野で用いられる一種の潜在変数モデルです ¹。潜在変数モデルとは、観測されたデータに対して、その背後に存在する隠れた変数（潜在変数）を仮定するモデルです。潜在変数モデルは、データの特徴や構造を抽出したり、新しいデータを生成したりすることができます。

潜在拡散モデルは、マルコフ連鎖という確率過程を用いて画像を生成します。マルコフ連鎖とは、現在の状態が過去の状態に依存しないような確率過程です。例えば、コイン投げの結果は、前回の結果に関係なく表か裏かが決まるので、マルコフ連鎖です。

潜在拡散モデルでは、まず、元の画像（ターゲット画像）から始めます。次に、ターゲット画像にランダムなノイズを加えて、画像を徐々に劣化させていきます。この過程を逆向きに辿ることで、劣化した画像からターゲット画像を復元することができます。この復元する過程が、画像生成の過程です。

しかし、ターゲット画像から劣化させる過程では、画像の情報が失われてしまいます。そこで、潜在拡散モデルでは、ターゲット画像から劣化させる前に、ターゲット画像を低次元の空間（潜在空間）に圧縮します。この圧縮された情報（潜在変数）を用いて、劣化した画像からターゲット画像を復元することができます。

stable diffusionの仕組み

stable diffusionは、潜在拡散モデルを用いてテキストから画像を生成します。具体的な流れは以下の通りです。

ユーザーがテキスト（プロンプト）を入力します。
プロンプトはCLIPというモデルによって画像埋め込み（英: image embedding）に変換されます。画像埋め込みとは、テキストや画像などの情報を低次元の空間に表現することです。
画像埋め込みはstable diffusionの潜在拡散モデルに入力されます。潜在拡散モデルは、画像埋め込みに対応する潜在変数を生成します。
潜在変数は、潜在拡散モデルの逆過程によって、劣化した画像から高品質な画像に復元されます。このとき、画像埋め込みと潜在変数の関係性を考慮して、プロンプトに沿った画像が生成されます。
生成された画像はユーザーに表示されます。ユーザーは生成された画像を保存したり、プロンプトを変更したりすることができます。

まとめ

stable diffusionは、潜在拡散モデルという技術を用いてテキストから画像を生成するAIです。潜在拡散モデルは、ターゲット画像を劣化させる過程と復元する過程を用いて画像を生成します。stable diffusionでは、テキストから画像埋め込みに変換し、潜在変数を生成し、プロンプトに沿った画像を復元します。stable diffusionは、高品質で多様な画像を生成することができます。