【ChatGPT・Claude・Gemini】プロンプトエンジニアリング（第一回）

概要

AI技術の進化により、私たちはChatGPTやClaude、Geminiといった高度な言語理解能力を持つAIチャットボットを無料で利用できるようになりました。これらのAIは、私たちの質問に対して驚くほど的確な回答を提供してくれます。しかし、AIとの対話にもコツが必要です。質問の仕方を工夫することで、AIからより深い洞察や有益な情報を引き出すことができるのです。

この「プロンプトエンジニアリング」と呼ばれる技術は、AIを効果的に活用するための新たなスキルとして注目されています。世界中の研究者たちが日々この分野で研究を進めており、その成果が論文として続々と発表されています。

今回のブログでは、OpenAIのChatGPTやAnthropicのClaudeなどのAIチャットツールを使って、より優れた文章を生成するためのプロンプトエンジニアリングのテクニックや、最新の研究成果について紹介します。AIチャットボットを賢く使いこなすためのヒントが満載ですので、ぜひご覧ください。

ホワイトボード思考法

はじめに、ホワイトボード思考法というプロンプト手法を試してみようと思います。まずは論文を要約して、論文の内容を簡単にまとめてみました。

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming men...

論文の概要

この論文で提案されている「ホワイトボード思考法」は、ChatGPTのようなマルチモーダル大規模言語モデルが、数式や視覚的な問題を解決する際に、自らプログラミングコードを生成し、それを使って視覚的な表現（例えばグラフや図）を作成し、その結果を元にさらに深い考察を行うというものです。

具体的には、例えば数式を写真やテキストでChatGPTに提示すると、ChatGPTはその数式を理解し、Pythonなどのプログラミング言語を使ってその数式のグラフを描画するコードを自動的に生成し、それによって視覚的に数式の解や振る舞いを確認することができます。

この手法は、視覚的な問題や空間的な推論が必要なタスクに対して非常に有効であり、これによってChatGPTのようなAIが人間と同じように「絵を描いて考える」ことができるようになるのです。

数式を用いた実例

それでは実際にホワイトボード思考法のプロンプトを用いてChatGPTを使って、与えられた三次方程式の数式を視覚化してみたいと思います。以下の三次方程式の数式を用いますので、ChatGPTに以下の数式のファイルを添付します。

添付ファイル

プロンプト

この数式を視覚化するためにPythonのMatplotlibライブラリを使用して、この方程式の視覚的な解法を描いてください。
コードを生成して図を作成し、その図を使用して最終的な答えを出してください。

生成されたコードとグラフ

import numpy as np
import matplotlib.pyplot as plt

# Coefficients for the cubic equation f(x) = ax^3 + bx^2 + cx + d
a = 1
b = -3
c = 2
d = 1

# Define the function
def f(x):
    return a*x**3 + b*x**2 + c*x + d

# Generate x values
x = np.linspace(-3, 3, 400)

# Calculate y values
y = f(x)

# Plotting the cubic equation
plt.figure(figsize=(10, 6))
plt.plot(x, y, label=r'$f(x) = {}x^3 + {}x^2 + {}x + {}$'.format(a, b, c, d))
plt.axhline(0, color='black',linewidth=0.5)
plt.axvline(0, color='black',linewidth=0.5)
plt.title('Graph of the Cubic Function')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.grid(True)
plt.legend()
plt.show()

もう一度ホワイトボード思考法とは何かを考えてみる

具体的には、AIが数式や視覚的な情報を受け取ったときに、プログラミングを使ってその情報を視覚化します。例えば、複雑な数式が与えられたとき、AIはその数式のグラフを描いて視覚的に理解し、そこからさらに深い考察を行うことができます。

この「視覚化して考える」プロセスが、まるでAIがホワイトボードに図を描きながら考えているように見えるため、「ホワイトボード思考法」と名付けられました。

ホワイトボード思考法の応用法

数学教育

生徒が難しい数式を解くとき、AIがその数式を視覚化して理解を助けることができます。これにより、抽象的な概念がより具体的に理解できるようになります。

ゲームデザイン

ゲーム内での建物設計や地形分析など、視覚的な情報を扱う際に、AIが設計図を描き出し、問題を解決する手助けをします。

ビジュアルデータの分析

医療画像や気象データなどの複雑なビジュアルデータを、AIが視覚的に解析し、結果を報告することで、専門家の意思決定をサポートします。

AIの積極的な使い道として

ホワイトボード思考法の開発により、AIが視覚的な問題にも柔軟に対応できるようになることが期待されています。この技術は、AIの問題解決能力を向上させるだけでなく、私たちがコンピュータとどのように協力していくかを示す新しい方法でもあります。

空間推論能力向上手法

次に、空間推論能力向上手法というプロンプト手法を試してみようと思います。まずは論文を要約して、論文の内容を簡単にまとめてみました。

Visualization-of-Thought (VoT)

Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

Large language models (LLMs) have exhibited impressive performance in language comprehension and various reasoning tasks...

論文の概要

この論文では、AIの空間推論能力を向上させる新しい技術「Visualization-of-Thought (VoT)」について紹介しています。VoTは、AIが自らの思考プロセスを視覚化し、その結果を次の推論に活かすことで、より複雑な空間的問題を解決できるようにする手法です。

従来の言語処理に加えて、VoTを使うことで、AIはナビゲーションや図形配置などの視覚的タスクでも高い精度を発揮します。実験では、VoTが従来の方法よりも効果的であることが確認されており、この技術がAIの柔軟な問題解決能力を大幅に高める可能性があります。

今後、空間推論が必要な分野でのAIの利用がさらに広がることが期待されます。ブログ記事では、VoT技術を使った具体的なプロンプト手法を紹介し、読者がAIの空間推論能力を引き出すための実践的なヒントを提供する予定です。

自動運転車の経路計画を用いた実例

タスク：

自動運転車が指定されたスタート地点からゴール地点までの最適な経路を見つけます。途中に障害物や交差点があるため、適切な経路を選択する必要があります。

プロンプト：

あなたは自動運転車の経路計画を行うエキスパートです。与えられたタスクを解決するために、以下の手順に従ってください。

タスクの内容を注意深く読み、理解してください。
解決のための推論ステップを考えてください。
各推論ステップの後に、その時点での状態を視覚化してください。視覚化はASCIIアートや絵文字を使って2Dグリッドで表現してください。
視覚化した状態を参照しながら、次の推論ステップを考えてください。
すべてのステップが完了するまで、3と4を繰り返してください。
最後に、タスクの解答を提示してください。
重要: 各推論ステップの後に必ず状態を視覚化し、その視覚化を基に次のステップを考えるようにしてください。これにより、あなたの「心の目」を活用した空間推論が可能になります。

それでは、以下のタスクに取り組んでください。

都市内の地図:

5x5のグリッドがあります。左上が(0,0)、右下が(4,4)です。
スタート地点は(0,0)です。
ゴール地点は(4,4)です。
(2,2) と (3,3) に障害物があります。
指示:

スタート地点(0,0)からゴール地点(4,4)まで移動してください。
障害物を避けながら、最適な経路を選んで移動してください。
各ステップごとに、車の現在位置をグリッド上で視覚化してください。

生成された応答：

無事にゴール地点（4, 4）まで辿り着けました。

強化学習を使った空間推論能力向上手法

これを強化学習のQ学習を使ってコード生成すると全く同じように問題を解くことができます。

プロンプト：

強化学習のQ学習を使ってコード生成を行い同じことを行なってください。

生成された応答：

import numpy as np
import matplotlib.pyplot as plt
import random

# 環境の設定
grid_size = 5
goal_state = (4, 4)
obstacles = [(2, 2), (3, 3)]
start_state = (0, 0)
actions = ['up', 'down', 'left', 'right']

# Qテーブルの初期化
Q = np.zeros((grid_size, grid_size, len(actions)))

# 学習パラメータ
alpha = 0.1  # 学習率
gamma = 0.9  # 割引率
epsilon = 0.1  # 探索率
episodes = 500

# 環境の報酬関数
def get_reward(state):
    if state == goal_state:
        return 10
    elif state in obstacles:
        return -10
    else:
        return -1

# 次の状態を取得する関数
def get_next_state(state, action):
    x, y = state
    if action == 'up' and x > 0:
        x -= 1
    elif action == 'down' and x < grid_size - 1:
        x += 1
    elif action == 'left' and y > 0:
        y -= 1
    elif action == 'right' and y < grid_size - 1:
        y += 1
    return (x, y)

# Q-learningアルゴリズム
for episode in range(episodes):
    state = start_state

    while state != goal_state:
        # 探索・利用バランスのための行動選択
        if random.uniform(0, 1) < epsilon:
            action_index = random.choice(range(len(actions)))
        else:
            action_index = np.argmax(Q[state[0], state[1], :])

        action = actions[action_index]
        next_state = get_next_state(state, action)
        reward = get_reward(next_state)

        # Q値の更新
        old_value = Q[state[0], state[1], action_index]
        next_max = np.max(Q[next_state[0], next_state[1], :])
        new_value = old_value + alpha * (reward + gamma * next_max - old_value)
        Q[state[0], state[1], action_index] = new_value

        state = next_state

# 学習された経路の視覚化
state = start_state
path = [state]

while state != goal_state:
    action_index = np.argmax(Q[state[0], state[1], :])
    action = actions[action_index]
    state = get_next_state(state, action)
    path.append(state)

# グリッド表示
grid = np.array([['.' for _ in range(grid_size)] for _ in range(grid_size)])
grid[start_state] = 'S'
grid[goal_state] = 'G'
for obs in obstacles:
    grid[obs] = 'X'
for step in path[1:-1]:
    grid[step] = 'O'

# 結果の表示
for row in grid:
    print(' '.join(row))

# 結果のグラフ表示
fig, ax = plt.subplots()
ax.matshow(np.zeros((grid_size, grid_size)), cmap='gray')

for (i, j), val in np.ndenumerate(grid):
    ax.text(j, i, val, ha='center', va='center')

plt.show()

このコードの解説
環境の設定:

grid_sizeは5x5のグリッドを定義し、goal_state（ゴール地点）やobstacles（障害物の位置）、start_state（スタート地点）を設定しています。
actionsは、車が選択できる行動（上、下、左、右）を定義しています。
Qテーブルの初期化:

Qは各状態・行動ペアに対するQ値を格納するテーブルです。初期値は0に設定されています。
報酬関数と次の状態の取得:

get_reward関数は、ゴールに到達したら+10、障害物に衝突したら-10、通常の移動には-1の報酬を与えます。
get_next_state関数は、選択した行動に基づいて次の状態を返します。
Q-learningアルゴリズムの実装:

各エピソードで車はスタート地点から開始し、ゴールに到達するか障害物に衝突するまで繰り返し行動を選択します。
行動は探索（ランダム選択）と利用（Q値に基づく選択）のバランスを取りながら選ばれます。
Qテーブルは、行動ごとの報酬と将来の期待報酬を基に更新されます。
学習された経路の視覚化:

学習が終了した後、車はQ値に基づいて最適な経路を選び、ゴールに到達するまでの道筋をグリッド上で視覚化します。
Oで示された経路が、車が障害物を避けながら進む最適なルートです。

空間推論能力向上手法の応用例

自動運転車の経路計画

障害物を避けながら最適なルートを選ぶために、地図を視覚化して考えます。

建築設計や都市計画

建物や道路の配置をシミュレーションしながら、最適なデザインを提案します。

ロボットの移動

工場や倉庫で、障害物を避けながら効率的に目的地まで移動します。

ゲームAI

キャラクターが障害物や敵を避けて、最適な経路を見つけるように動きます。

ドローンの自律飛行

障害物を避けながら、指定された地点に安全に到達します。

医療手術支援

患者の体内を3Dで視覚化し、安全で正確な手術を行います。

教育ツール

数学や物理の問題を視覚的に解き、学生にわかりやすく教えます。

空間推論能力向上手法の未来での活用手段を想像してみよう

空間推論能力向上手法はAIにとって人間のためのシミュレートを手助けするような役割を担うようなところがあります。

VRなどの仮想現実内でのシミュレーションや音声の手引きを通じて、ユーザーはAIのサポートを受けながら、複雑な空間問題を直感的に解決できます。

ありとあらゆる場面でAIが融合することで、私たちの想像力を拡張し、よりスマートな選択が可能になることが想像できます。この方法論は、AIを身近に感じ、効果的に活用するための重要な手段となるでしょう。