aiartgallery’s diary

Stable Diffusionを使って色々やっていくブログです。

stable diffusionとは?話題の画像生成AIの仕組みを徹底解説!

はじめに

stable diffusionとは、Stability AI社が開発・提供している画像生成AIです。ユーザーが入力した呪文(プロンプト)を基にイラストを生成してくれます。stable diffusionは、潜在拡散モデル(英: latent diffusion model)という技術を用いて画像を生成しています。この記事では、stable diffusionの仕組みや技術的な背景について解説します。

潜在拡散モデルとは?

潜在拡散モデルとは、機械学習の分野で用いられる一種の潜在変数モデルです1。潜在変数モデルとは、観測されたデータに対して、その背後に存在する隠れた変数(潜在変数)を仮定するモデルです。潜在変数モデルは、データの特徴や構造を抽出したり、新しいデータを生成したりすることができます。

潜在拡散モデルは、マルコフ連鎖という確率過程を用いて画像を生成します。マルコフ連鎖とは、現在の状態が過去の状態に依存しないような確率過程です。例えば、コイン投げの結果は、前回の結果に関係なく表か裏かが決まるので、マルコフ連鎖です。

潜在拡散モデルでは、まず、元の画像(ターゲット画像)から始めます。次に、ターゲット画像にランダムなノイズを加えて、画像を徐々に劣化させていきます。この過程を逆向きに辿ることで、劣化した画像からターゲット画像を復元することができます。この復元する過程が、画像生成の過程です。

しかし、ターゲット画像から劣化させる過程では、画像の情報が失われてしまいます。そこで、潜在拡散モデルでは、ターゲット画像から劣化させる前に、ターゲット画像を低次元の空間(潜在空間)に圧縮します。この圧縮された情報(潜在変数)を用いて、劣化した画像からターゲット画像を復元することができます。

stable diffusionの仕組み

stable diffusionは、潜在拡散モデルを用いてテキストから画像を生成します。具体的な流れは以下の通りです。

 

  • ユーザーがテキスト(プロンプト)を入力します。
  • プロンプトはCLIPというモデルによって画像埋め込み(英: image embedding)に変換されます。画像埋め込みとは、テキストや画像などの情報を低次元の空間に表現することです。
  • 画像埋め込みはstable diffusionの潜在拡散モデルに入力されます。潜在拡散モデルは、画像埋め込みに対応する潜在変数を生成します。
  • 潜在変数は、潜在拡散モデルの逆過程によって、劣化した画像から高品質な画像に復元されます。このとき、画像埋め込みと潜在変数の関係性を考慮して、プロンプトに沿った画像が生成されます。
  • 生成された画像はユーザーに表示されます。ユーザーは生成された画像を保存したり、プロンプトを変更したりすることができます。

 

まとめ

stable diffusionは、潜在拡散モデルという技術を用いてテキストから画像を生成するAIです。潜在拡散モデルは、ターゲット画像を劣化させる過程と復元する過程を用いて画像を生成します。stable diffusionでは、テキストから画像埋め込みに変換し、潜在変数を生成し、プロンプトに沿った画像を復元します。stable diffusionは、高品質で多様な画像を生成することができます。

  • 以上、stable diffusionの仕組みや技術的な背景を解説しました。stable diffusionに興味がある方はぜひ試してみてくださいね😊