[画像生成] APIでDALL-E 3を使ってみよう

画像生成

DALL-E 3とは?

DALL-E 3について


DALL-E 3は、OpenAIによって開発された最新のAI画像生成モデルで、テキストからリアルな画像を生成する能力を持っています。

DALL-E 3をChatGPTで利用するためには、ChatGPT Plusにグレードアップする必要があります。

ChatGPT Plusの利用:月額3,000円

DALL-E 2との主な違い

生成される画像のクオリティ

より高い解像度でよりリアルな画像を生成することが可能です。

左:DALL-E 2

右:DALL-E 3

やはり、DALL-E 3で作られた右の画像の方がクオリティが高いと感じます。

DALL-E 3の特徴

文脈理解の精度

テキストの指示に基づいたより複雑なシナリオに応じた画像を生成できます。プロンプトは英語で記述する方が精度が高いようです。

プロンプトの例

People walking on a large bridge towering over a medieval European cityscape. A large river flows below, and a steamship descends with smoke rising.

和訳

中世ヨーロッパの街並みにそびえ立つ大きな橋の上を歩く人々。眼下には大きな川が流れ、煙を上げて蒸気船が下ってくる。

少し複雑な文章でも景観がイメージできます。小説などで描かれている風景描写などもイメージしやすそうです。

DALL-E 3をAPIで使用する方法

OpenAIのアカウント作成を行い、APIキーの取得を行う

  1. アカウントを作成し、ログイン後にAPIを選択します。

2. OpenAI Platformにログインします。

3. サイドメニューにある「API Keys」を選び、「Create new secret key」をクリックします。

4. OpenAIのAPIキーは「Create new secret key」を押した直後に表示される際にしか確認することができません。名前をつけた後は、コピーをして安全な場所に保存しましょう。

これでDALL-E 3を使うためのAPIキーの取得は完了です。

利用料金

DALL-E 3の利用料金です。

openai.com/pricing

API経由でのDALL-E 3を使った画像生成

今回はGoogle Colaboratoryを使って説明します。

  1. ライブラリのインポート
!pip install openai

2. 先ほど取得したAPIキーを入力します。

import os
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass('OpenAI API Key:')

3. モデル・プロンプト・サイズ・画像の品質・生成回数を指定して画像生成を行います。

from openai import OpenAI
client = OpenAI()

response = client.images.generate(
    model="dall-e-3",
    prompt="魔法使いの帽子と服を着た杖を持った猫のイラスト",
    size="1024x1024",  
    quality="standard",
    n=1,
)

image_url = response.data[0].url
print(image_url)

コードを実行後に生成された画像です。

可愛い猫ちゃんで安心しました。

DALL-E 3の設定

設定を指定できます。条件に応じて変更してみてください。

  • 画像サイズ / size1024×1024 / 1024×1792 / 1792×1024
  • 画像の品質 / qualitystandard / HD
  • 生成回数 / n1回

まとめ

DALL-E 3を使う際はプロンプトを工夫するといいので、ChatGPTを使ってDALL-E 3に有効なプロンプトを生成してもらうといいかもしれません。

<役割>

あなたは世界的に有名な画家で趣味は写真を撮ることです。

<プロンプト>

DALL-E3を使った画像生成における有効なプロンプトを作ってください。

<条件>

・表現手法

・色彩

・画像のイメージ(モノクロ、アニメ風など)

プロンプトの参考例

ChatGPTを使って先ほどのプロンプトを入力すると以下のようなプロンプトが生成されたので早速画像を生成してみます。

「午後の柔らかな光が差し込むフランスのカフェテラスで、手描きの水彩とインクのテクスチャをもつアニメスタイルの若い女性がコーヒーを飲んでいる。彼女はビンテージ風の洋服を着ており、背景にはモノクロの街並みが広がっている。全体の色彩はセピアトーンと温かみのあるパステルカラーで構成されている。」
生成された画像の例

プロンプトの要素の分析

表現手法

「手描きの水彩とインクのテクスチャ」アーティスティックな手法を示しており、AIにどのようなスタイルで画像を生成すべきかの指示を与えます。

色彩

「セピアトーンと温かみのあるパステルカラー」画像の色彩を特定し、AIに色調の方向性を提供します。

画像のイメージ

「モノクロの街並み」「アニメスタイルの若い女性」は、画像がモノクロとカラーの組み合わせであること、また特定のイメージスタイルを持つことを指定しています。

プロンプト指定のポイント

プロンプトは、生成される画像の具体的なビジョンをAIに伝えるための重要なツールです。表現手法色彩画像のイメージを織り交ぜることで、より精密で意図に沿った結果を得ることができます。

コメント

タイトルとURLをコピーしました