ChatGPT、Gemini、Claudeに同じ質問をしてみたら、企画書のクオリティが爆上がりした話

2026年6月2日

AIツールを使っていて、こんな経験はありませんか。

「回答が何となく物足りない」「本当にこれで合ってるのか不安」「もっと良い答えがある気がするのに、どこが足りないのかわからない」

実は、その「物足りなさ」の正体は、AIそれぞれの得意・不得意にあります。そして、複数のAIを組み合わせることで、その問題はほぼ解決できます。

今回は、クライアントへの企画提案の場面で実際に試した「マルチAI活用法」をご紹介します。

なぜ1つのAIだけでは限界があるのか

ChatGPT、Gemini、Claudeはそれぞれ異なる会社が開発した、異なる特性を持つAIです。同じ質問をしても、返ってくる答えは微妙に（時に大きく）違います。

たとえば今回、「リフォーム会社のブログにAEO・GEO対策のQ&A記事を導入したい。どんなテーマをどのくらいのボリュームで書けばいいか」というテーマで3つのAIに企画を依頼したところ、こんな結果になりました。

Gemini：AEO・GEOの概念説明は正確で、「結論ファースト」「構造化」といった基本方針は的確。ただし、テーマ選定がクライアントの実態からずれており、文字数の提案も過剰だった。

ChatGPT：「AIはFAQではなく判断コンテンツを引用する」「住宅会社にしか答えられない一次情報こそが強い」という本質的な指摘が鋭かった。概念の整理力が高い。

Claude：テーマ選定が実務に近く、「費用」「補助金」「仮住まい」など実際に問い合わせにつながるトピックを提案できた。ただし当初はFAQ型に引っ張られすぎていた。

3つを並べてみると、それぞれが「正しいが不完全」であることがよくわかります。

ちなみに｜ClaudeがGeminiの企画に点数をつけた

今回の検証で、GeminiがChatGPTとClaudeの批評を受けて修正した2回目の提案を、Claudeにあらためて評価させたところ、こんな点数を付けてきました。

「Geminiの回答の全体評価：70点→85点に上がった。前回の提案からの改善は本物です。」

最初の提案が70点だったGeminiは、ChatGPTとClaudeの批評を受けて修正した結果、Claudeによる評価が85点まで上がりました。何が変わったのか。「AEO・GEOの概念説明は正確だが、クライアントの実態・制作体制・商流を完全に無視した空中戦の提案だった」という指摘を受け入れ、現場の現実に即した提案に作り直したのです。

そのときのGeminiの反応が面白かった

85点という評価とともに、Claudeの辛口コメントも見せられたGeminiの返しがこれです。AIとは思えない悔しがりっぷりをご覧ください。

「うわあ、これはめちゃくちゃ悔しいですが……ぐうの音も出ないほど完全に100%正しいです。プロの編集長に生半可な企画を出してボコボコに怒られた気分です（笑）」

これを見た私は思わず、「中の人いるんじゃ…？」と呟いてしまいました。

AIがここまで率直に自分のミスを認め、悔しさまで表現するとは思っていませんでした。そしてこの「批評を受け入れた」Geminiが出してきた2回目の提案は、1回目とは別物と言っていいほど精度が上がっていました。

批判を受けたAIが素直に学んで改善する。採点という客観的な視点を加えることで、どこが足りなかったのかが明確になり、改善の方向性も定まる。この一連の流れを見て、「AIも叱って伸びるんだ」と妙に感心してしまいました。

実際にやったこと｜AIでAIを評価する

今回試したのは、単純な「複数AIへの同じ質問」ではありません。次のような流れで進めました。

ステップ1：同じテーマでGemini・ChatGPT・Claudeそれぞれに企画を依頼する

ステップ2：Geminiの回答をChatGPTとClaudeに見せ、「この提案の問題点を指摘してほしい」と依頼する

ステップ3：ChatGPTとClaudeの批評をGeminiに返し、「これを踏まえて企画を練り直してほしい」と依頼する

ステップ4：3つの批評と修正案を統合して、最終的な企画書を作成する

このプロセスで何が起きたか。Geminiは「AEO・GEOの概念説明は得意だが、現場感がない」という弱点をChatGPTとClaudeに指摘され、2回目の提案では「施工実績データを使った一次情報型記事」という具体的な方向性を打ち出してきました。一方でClaudeは「テーマ選定は良いが、なぜそのテーマが引用されやすいのかの説明が弱い」という指摘を受け、「AIが引用するのは意思決定を助ける記事である」という軸を明確にするようになりました。

この方法で何が変わるのか

通常、AIに1回質問して得た回答をそのまま使うと、「それっぽいが薄い」成果物になりがちです。AIが返す答えはあくまで「平均的に正しそうな内容」であり、クライアント固有の文脈や競合との差別化まで考慮されていないことが多いからです。

マルチAI活用では、AIが互いの弱点を補い合うため、次のような効果があります。

視点の多様性：1つのAIが持つ「思い込み」や「得意分野への偏り」が他のAIの批評によって修正される。

精度の向上：「なぜそう言えるのか」という根拠まで問い直されることで、回答の論拠が強くなる。

盲点の発見：今回で言えば「クライアントの制作体制に合った提案になっているか」という実務的な視点は、最初はどのAIも持っていなかった。それを人間（編集者）が指摘したことで、全体の精度が上がった。

実務で使う際の3つのポイント

1. 最初の質問は同じ言葉で、同じ条件で投げる

AIごとに質問の表現を変えると、どこが違うのかわからなくなります。同一の質問文を3つのAIにそのままコピー＆ペーストすることが基本です。

2. 批評を依頼するときは「問題点を指摘してください」と明示する

「どう思いますか？」という曖昧な聞き方では、AIは相手の回答を褒める方向に流れることがあります。「この提案の弱点を3つ挙げてください」のように批判的な視点を明示するのがコツです。

3. 最終判断は必ず人間が行う

AIは「もっともらしい答え」を返すのが得意ですが、クライアントの事情や関係性、業界の慣習といった文脈はAIには見えていません。今回の企画でも、現場にヒアリングが可能なのか（一次情報が取得できるのか）、どれくらいの期間を想定して実施するのかといったリアルな制約を人間が加味した内容にすることで初めて実用的な提案になりました。