プロンプトエンジニアリング実用テクニック検証済み総覧(2023年〜2026年5月)

実務で使えるAIプロンプト技術実証総覧(2023年〜2026年5月)

変化するAIと話すための対話術総図鑑(2023年〜2026年5月)

0. このドキュメントの性格と導入ケース

本資料は2つの層で構成される。第一層は2023〜2026年5月のプロンプトエンジニアリング研究を「研究の収束・通説の覆り・推論モデル時代の判定」の観点で整理した技術総覧、第二層はその総覧を3つのLLMに分析させ相互検証させた実証記録(詳細は付録A)である。

第二層を含める理由は単純で、今回のクロスバリデーション過程そのものが、本文が扱う論点(「LLM単独の自己修正は外部信号なしには誤謬を温存する」§3.7)を生のデータとして実演してしまったからである。

本資料は、最新のAIプロンプト技術をスッキリと整理した「技術総覧」と、複数の主要AIモデルを用いて技術自体の信憑性をチェックした「実証記録」の二部構成です(詳細は付録A)。

検証作業そのものが、「AIは自分自身だけで間違いを修正するのが困難である(外部のフィードバックが必要である)」という§3.7の重要な事実をライブデータとして証明することになったため、この検証プロセス自体をそのまま記録として含めています。

本資料は、プロンプト技術の「最新の地図(総覧)」と、その地図が正しいかをAI自身に検証させた「検証の記録(付録A)」の2つで構成されています。

この検証の記録を載せたのは、「AIは、外部から指摘されないと自分の誤り(誤謬)に気づけない」という§3.7の落とし穴を、今回の検証プロセスそのものが実証してしまったからです。

0.1 導入ケース:検証過程で観察された3つの認知の死角

本資料の作成過程で、3つのLLM(Claude Opus / GPT / Gemini)に同一の総覧ドラフトを検証させたところ、各モデルはそれぞれ異なる失敗様式を露呈した。これは本文の理論を理解するための具体的入口になるため、冒頭に要約しておく(詳細な訂正記録は付録A.2)。なお以下に登場する3技法は本文で詳述する:EmotionPrompt=感情・切迫感を訴えて精度を上げる技法(§3.4)、プロンプト反復=同じ問いを2回入力する技法(§3.5)、CoD(Chain of Draft)=思考を極小メモに圧縮させる技法(§3.6)。「再現失敗」とは、当初報告された効果が後続研究で再現できなかったことを指す。

Gemini陣営は、2023年の初期論文(Li et al.)の「EmotionPromptで最大+115%向上」という主張を最新結論として提示し、2024年以降の再現失敗(効果は+1%に過ぎなかった)を取りこぼした。さらに反復論文について原論文に存在しない数値(「推論で75%→61%へ過剰適合」)を捏造し、外部から位置を特定して指摘されてもすぐには改めず、人間が2回にわたって指摘してようやく訂正に応じた(他の誤りは1回の指摘で即座に訂正された——この1件だけが異常に粘着的だった)。一方でClaude Opus陣営とGPT陣営は、感情プロンプトの再現失敗は正しく捉えていたが、2025年末以降の新論文(プロンプト反復・CoD)を完全に取りこぼした——しかも両者は実質的に同一テキスト(1ソース)であり、3モデルに分けて訊いたつもりが情報源は事実上2系統しかなかった。

※この事例が示す含意: 各モデルの欠落は相互補完的だった(Geminiが持つ知識をOpus/GPTが欠き、その逆も真)。複数AIに訊いても、(1)出力が同一ソースに収束して多様性が見かけ倒しになりうること、(2)単一モデルの回答を信じると一方向に欠けたまま気づけないこと、を同時に露呈している。これが本資料の主題「LLM単独・LLM同士の照合では誤謬は消えず、外部一次ソースとの照合が要る」(§3.7)の生きた実例である。

※方法論的限定: これらは特定プロンプト・特定ワークフロー下での逸話的実例(anecdotal evidence)であり統計的実証ではない。ただしモデルの認知の死角を突くサンプル事例として有効である。

本ドキュメントの作成過程で、3つのAI(Claude Opus / GPT / Gemini)に同じ原稿をチェックさせたところ、各モデルが特有の「知識の死角」を露呈しました(詳細な訂正記録は付録A.2)。まず前提として、以下に出てくる3つの技法を一言で説明します。EmotionPrompt=「これは私のキャリアに関わる」などと感情に訴えて精度を上げようとする技法(§3.4)、プロンプト反復=同じ質問を2回繰り返して入力する技法(§3.5)、CoD=AIに丁寧な文章ではなくメモ書きで短く考えさせる技法(§3.6)です。「再現失敗」とは、最初に報告された効果が、後の研究で確認できなかったことを指します。

Geminiは、2023年の論文(Li et al.)の「EmotionPromptで最大+115%向上」という初期の主張をそのまま最新の真実として扱い、2024年の再現失敗(実際の効果は+1%)を見落としました。さらにプロンプト反復の検証では、論文に存在しない「推論の適合率が75%→61%へ低下した」という数値を捏造し、一度指摘しても修正せず、2回目の指摘でようやく訂正しました(他の間違いはすべて1回の指摘で直ったのに、この捏造数値だけは人間が二度突き返す必要があったのです)。一方、Claude OpusとGPTは、感情プロンプトの再現失敗は正しく捉えましたが、2025年末以降の新論文(プロンプト反復やCoD)の情報を取りこぼしました。しかもこの2つは実質的に同じ内容(同一の情報源)で、3つのAIに分けて聞いたつもりが、中身は事実上2種類しかなかったのです。

※この事例の重要なポイント: 3つのAIの欠落は互いに補い合う関係でした(Geminiが知っていることをOpus/GPTが知らず、その逆も同様)。つまり、複数のAIに聞いても「①回答が同じ情報源に偏って多様性が見せかけだけになる」「②1つのAIだけを信じると、一方向に欠けたまま気づけない」という2つの落とし穴が、同時に表れたわけです。これこそ、本資料の核心である「AIは単独でも、AI同士で照合させても間違いは消えず、外部の正しい情報(一次ソース)と突き合わせる必要がある」(§3.7)の、生きた実例です。

※補足: これは特定の条件下でのエピソード的実例であり、すべての用途における統計的なデータではありませんが、AIの認知の死角を示す実例として有用です。

このドキュメントを作る過程で、3つのAI(Claude Opus / GPT / Gemini)に同じ原稿を点検させたところ、それぞれが違う「思い込みのクセ」を見せました(詳細は付録A.2)。まず、これから出てくる3つの用語を簡単に説明します。EmotionPromptとは「これに人生がかかっています」のように感情に訴えてAIを賢くしようとする小技、プロンプト反復とは同じ質問を2回続けて書く小技、CoDとはAIに長い文章ではなくメモ書きで考えさせる小技のことです(それぞれ§3.4・§3.5・§3.6で詳しく扱います)。「再現失敗」とは、最初に「効く」と言われた効果が、後で確かめたら出てこなかった、という意味です。

Geminiは、2023年の「感情に訴えるとAIの性能が最大+115%上がる」という古い主張(Li et al.)を信じ込み、その後それが否定された事実(本当は+1%しか変わらなかった)を見落としました。さらに、別の論文について「考える力が75%→61%に落ちた」という存在しない数字を作り出し、その箇所を「ここが間違っている」と指摘しても一度では直さず、もう一度指摘してようやく訂正しました(他の間違いは1回言えばすぐ直ったのに、この作り話の数字だけは二度言わないと引っ込めなかったのです)。一方、ClaudeとGPTは古い主張の誤りは見抜いていましたが、2025年末以降の新しい技法(プロンプト反復やCoD)を取りこぼしていました。しかもこの2つは中身がほぼ同じ(同じ情報源)で、3つのAIに別々に聞いたつもりが、答えは実質2種類しかなかったのです。

※この話のいちばん大事なところ: 3つのAIの「抜け」は、ちょうどパズルのように互いを補い合う形でした(Geminiが知っていることをClaude/GPTが知らず、その逆もまた然り)。だから、複数のAIに聞いても「①みんな同じ情報源を見ていて、多様な意見に見えて実は同じ」「②1つのAIだけを信じると、欠けている方向に気づけない」という2つの罠が同時に起きます。これこそ、本資料がいちばん伝えたい「AIは1人でも、AI同士で相談させても間違いは直らず、外の正しい情報(元の論文など)と照らし合わせて初めて直る」(§3.7)という教えを、地で行く実例なのです。

※補足: これは特定の作業で起きた個別のできごと(anecdotal evidence)ですが、AI全体の統計的な結果ではありません。しかし、AIが陥りやすい誤りのパターンを知るには格好の事例です。

1. TL;DR

  • 2023年に話題化したテクニックの多く(「Let's think step by step」「専門家ペルソナ付与」「EmotionPrompt」)は、2024〜2025年の再現研究で効果が消失または逆効果と報告され、特に推論ネイティブモデル(o1/o3、DeepSeek-R1、Claude Thinking、Gemini Thinking)では「使うべきでない」に分類が変わった
  • 推論モデルの公式ガイダンスは各社一致で「Few-shotを入れるな、CoT指示を入れるな、ペルソナで誘導するな、指示は簡潔に」。プロンプトエンジニアリングの主戦場は「精度向上」から「過剰思考(Overthinking)の抑制・コスト/レイテンシ最適化」へ移行している。
  • 今でも実務的価値が確実に残るのは、(a) XML/Markdownによる構造化、(b) タスク・制約・期待出力の明示、(c) 推論とフォーマットを分離する二段階生成、(d) 外部検証付きのSelf-Refine、(e) 評価可能タスクでのDSPy/APE自動最適化
  • 2025年末の新知見として、プロンプト反復(Leviathan et al.)は非推論モデル限定で強力/推論モデルでは中立で不要Chain of Draft(Xu et al.)は推論モデルの冗長性圧縮に有効、の2つが確定した。
  • 2026年5月改訂の新知見:「禁止事項を書いても守られるとは限らない」。検証可能な単純制約でも遵守は不完全(IFEval)、かつ推論誘導は制約遵守をさらに下げる(Li 2025)。プロンプト設計は「禁止の列挙」ではなく「ゴール状態の記述」を主軸に組むべき(§3.11/§5.1)。
  • 2023年頃にもてはやされたプロンプト技術(「順を追って考える」「役割定義」「感情的な文言」)は、2024〜2025年の再検証で効果がない、あるいはむしろ逆効果であることが判明しました。特に思考型AI(o1/o3, DeepSeek-R1, Claude Thinking, Gemini Thinking)ではこれらは「使うべきでない不要な指示」となりました
  • 主要AI開発元の公式見解は「余計な例(Few-shot)や思考手順の指示(CoT)、役割定義を入れず、シンプルに指示せよ」で一致しています。プロンプト作成の目的は、精度アップからAIの「考えすぎ(Overthinking)」を抑え、コストとスピードを最適化することへ移行しています。
  • 実務上、有効性が実証されているのは、(a) XML/Markdownによる文書構造化、(b) 目的・制約・出力形式の明確化、(c) 思考ステップとフォーマット変換を別で行う二段階処理、(d) 外部チェック機構のある自己修正、(e) 自動プロンプト最適化ツール(DSPy/APE)の適用です。
  • 2025年末には、問いを繰り返す「プロンプト反復」(Leviathan et al.)は従来のAIにのみ極めて有効であり、思考型AIには不要であること、極限まで簡潔に思考させる「Chain of Draft」(Xu et al.)は思考型AIのコスト削減に有効であることが判明しました。
  • 2026年5月改訂の新ルール:「〜するな」と書くだけではAIは動きません。機械的に採点できる単純ルール(IFEval)ですらAIは守りきれず、深く考えさせるとむしろルールを忘れやすくなります(Li 2025)。プロンプトは禁止の羅列ではなく、「目指すべき完成形」を記述するのが実務の定石です。
  • 「順を追って考えて」「あなたはプロの〜です」「頑張って」といったかつての定番テクニックは、2024〜2025年の最新研究で効果が消失したか、むしろ逆効果になることが分かりました。特に「自ら深く考えるAI」(o1/o3, DeepSeek-R1, Claude/Gemini Thinking)では、余計な装飾をつけず端的に問うのが最適です
  • 最新AIの説明書には「例題(Few-shot)も見本(CoT)も役作り(ペルソナ)もいらない、シンプルに話して」と書かれています。今の設計目標は、AIに「無駄に長く考えさせないこと(過剰思考の防止)」と、時間とAPI料金の節約です。
  • 今でも強力な武器は、(a) XMLタグを使った情報の整理、(b) ゴールとルールの明確化、(c) 「アイデア出し」と「清書」を分ける二段階の仕組み、(d) 答えを外部ツールで添削する自己修正、(e) 自動でプロンプトを磨く道具(DSPy/APE)です。
  • 2025年末の最新情報では、同じ質問を繰り返す「プロンプト反復」(Leviathan et al.)は従来のAIの記憶を引き出すのに抜群だが、考えるAIには不要であること、メモ書きのように短く考えさせる「Chain of Draft」(Xu et al.)が考えるAIの高速化に有効ことがわかりました。
  • 2026年5月アップデートの新事実:「ダメと言われてもやりたくなっちゃう」。自動で判定できるような単純ルール(IFEval)すらAIはよく忘れます。おまけに「よく考えて」と指示すると、さらにルールを守れなくなります(Li 2025)。プロンプトは「禁止事項の壁」を建てるのではなく、「行きたいゴール」をはっきり見せましょう。

2. 背景:非推論モデルから推論ネイティブモデルへのパラダイムシフト

2023年から2026年5月にかけてのLLMの進化は、パラメータ数の拡大ではなくアーキテクチャの構造的転換を意味する。

2023年から2026年5月にかけてのAIの進化は、単に「頭脳(パラメータ数)が大きくなった」のではなく、「思考の仕組み(アーキテクチャ)」そのものが根本的に変化したことを意味します。

2023年から2026年5月にかけて起きたAIの進化は、単に「物知りになった(パラメータ増)」のではなく、「頭の使い方の構造(アーキテクチャ)」が変わったという大転換です。

flowchart TD subgraph NonReasoning ["Non-Reasoning Model e.g. GPT-4o"] In1["Input Query"] --> Att1["One-way Attention Prefill"] Att1 --> Dec1["Causal Decoding"] Dec1 --> Lim1["Attention Decay - Lost in the Middle"] Lim1 --> Out1["Direct Output - Static Output State"] end style In1 fill:#F5F4F1,stroke:#524C49 style Att1 fill:#F5F4F1,stroke:#524C49 style Dec1 fill:#F5F4F1,stroke:#524C49 style Lim1 fill:#F5F4F1,stroke:#524C49 style Out1 fill:#C42E46,stroke:#524C49,color:#fff
flowchart TD subgraph Reasoning ["Reasoning-Native Model e.g. DeepSeek-R1"] In2["Input Query"] --> RTok["Self-Generated Reasoning Tokens"] RTok --> Eval["Internal Chain of Verification"] Eval -->|"Error Detected"| RTok Eval -->|"Verification Passed"| Out2["Logical Structured Output"] end style In2 fill:#F5F4F1,stroke:#3A2033 style RTok fill:#E6CFAB,stroke:#3A2033 style Eval fill:#F5F4F1,stroke:#3A2033 style Out2 fill:#799E86,stroke:#3A2033,color:#fff
flowchart TD subgraph NormalAI ["従来型AI - GPT-4o"] Input1["指示・テキスト入力"] --> Proc1["一方向での処理"] Proc1 --> Mid1["長い文章の中間で注意力が散漫化"] Mid1 --> Output1["直接回答を出力 - 間違いが残りやすい"] end style Input1 fill:#F5F4F1,stroke:#524C49 style Proc1 fill:#F5F4F1,stroke:#524C49 style Mid1 fill:#F5F4F1,stroke:#524C49 style Output1 fill:#C42E46,stroke:#524C49,color:#fff
flowchart TD subgraph ThinkAI ["最新の思考型AI - DeepSeek-R1"] Input2["指示・テキスト入力"] --> Think2["自律的思考ステップを開始"] Think2 --> Check2["頭の中で論理を検証・見直し"] Check2 -->|"ミスを検知"| Think2 Check2 -->|"検証パス"| Output2["洗練された最終回答を出力"] end style Input2 fill:#F5F4F1,stroke:#C42E46 style Think2 fill:#E6CFAB,stroke:#C42E46 style Check2 fill:#F5F4F1,stroke:#C42E46 style Output2 fill:#799E86,stroke:#C42E46,color:#fff
flowchart TD subgraph OldAI ["伝言ゲーム型AI - 旧AI"] Start1["質問を聞く"] --> Step1["後戻りせずに前から順に読み解く"] Step1 --> Slip1["話の途中で本来の意図を忘れかける"] Slip1 --> End1["思いついた順にすぐ喋る - 言い直し不可"] end style Start1 fill:#F5F4F1,stroke:#524C49 style Step1 fill:#F5F4F1,stroke:#524C49 style Slip1 fill:#F5F4F1,stroke:#524C49 style End1 fill:#C42E46,stroke:#524C49,color:#fff
flowchart TD subgraph NewAI ["じっくり考えるAI - 新AI"] Start2["質問を聞く"] --> Draft2["脳内の下書き用紙で自発的に思考"] Draft2 --> Review2["本当に正しいか自己検証"] Review2 -->|"違ったら"| Draft2 Review2 -->|"納得したら"| End2["完璧に整った清書を答える"] end style Start2 fill:#F5F4F1,stroke:#799E86 style Draft2 fill:#E6CFAB,stroke:#799E86 style Review2 fill:#F5F4F1,stroke:#799E86 style End2 fill:#799E86,stroke:#799E86,color:#fff

2.1 非推論モデルでプロンプトハックが効いた機序(因果の鎖)

GPT-3.5/4o、Claude 3/3.5、Gemini 1.5などの非推論モデルは、デコーダ専用(Decoder-only)の因果的言語モデルであり、一方向的なアテンション・アーキテクチャを持つ。各トークンはそれより前に出現したトークンにのみ注意を向けるため、プロンプトの冒頭や中間に提示された複雑なコンテキストは、末尾に配置された具体的な「問い」を把握しないまま処理される。

この一方向性が「Lost in the Middle(中間注目の劣化)」や注意の散逸を生む。これを補正する目的で、「Let's think step by step(明示的CoT)」、問いを二度入力する「プロンプト反復(RE2)」、文脈を固定化する「専門家ペルソナ付与」などのハックが効果を発揮した。つまりハックの有効性は、モデル側の構造的欠陥を人間が言葉で埋め合わせていたことに由来する。

GPT-4oやClaude 3.5などの従来のAIモデルは、文章を「最初から順に一方向へ読み進める」という構造を持っています。このため、長いプロンプトの最初の方に書かれた重要な背景情報は、最後の方にある「具体的な質問」を読む時点では注意が薄れてしまう(中間注目の劣化:Lost in the Middle)という問題がありました。

「順を追って考える」「質問を繰り返す」「専門家の役割を与える」といった従来のテクニックは、このAIの構造的な読み飛ばしを防ぐために、人間が言葉で注意を引いていた工夫でした。つまり、これらはAIの不完全な注意力をサポートするためのハックだったのです。

従来のAI(GPT-4oやClaude 3.5など)は、いわば「後戻りのできない一方向の読書家」です。文章を頭からお尻に向かって一直線に読み進めながら、同時に次の言葉を口にしなければなりません。そのため、長い話の途中で、最初に聞いたはずの「本当に答えるべきこと」を忘れてしまう(Lost in the Middle:中間の迷子)という弱点がありました。

そこで人間は、「ゆっくり順を追って考えてみて」「もう一度聞くけど」「あなたは超エリートだよ」と声をかける(プロンプトハック)ことで、AIの弱点である「一方向のアテンション(注意力)」を無理やりつなぎ留めていました。これらは、AIの足らない頭脳を補うための言葉のギプスだったのです。

2.2 推論ネイティブモデルにおける自律的リソース配分

対して、強化学習(RL)ベースの推論モデルは、最終テキストを出力する前に内部で「思考用トークン(Reasoning Tokens)」を自律生成し、論理ステップの構築・検証・バックトラッキング・自己修正を内部で完結する。

このアーキテクチャシフトにより、プロンプトの役割は「足りない認知能力を言葉で補うフェーズ」から「進化した内部推論エンジンの計算・認知リソースをいかに最適配分し、過剰思考(Overthinking)に起因する冗長化・ブレを抑制するか」というリソース制御フェーズへ移行した。結果として実務は、使用モデルが「非推論」か「推論ネイティブ」かでアプローチを180度切り替える必要が生じている。

一方で、強化学習(RL)をベースに開発された「思考型AI」は、回答を書き始める前に、裏側で「思考用トークン(Reasoning Tokens)」を自ら作り出し、論理を組み立てたり、自分で間違いをチェックしたりする仕組みを持っています。

この変化により、プロンプトの役割は「AIの能力を補う」ことから、「AIの思考エンジンを無駄なく働かせ、考えすぎ(Overthinking)による時間やコストのロスを防ぐ」ためのリソース管理へと変わりました。実務においても、使うAIが「従来型」か「思考型」かで、プロンプトのアプローチを180度転換する必要があります。

これに対し、最新の「考えるAI」は、回答を出力する前に、頭の中で「思考のための下書き(Reasoning Tokens)」を自発的に書き出します。人間が指示しなくても、自分で仮説を立て、裏取りをし、間違っていれば自分で戻って修正するというプロセスを内部で勝手にやってのけます。

この変化によって、プロンプトは「AIの足らない頭脳を補う言葉」から「AIの頭脳のギアをどうコントロールし、考えすぎ(Overthinking)によるスピードダウンやブレを防ぐか」というエネルギー制御レバーへと進化しました。そのため、目の前のAIが「従来型」か「考えるAI」かによって、アプローチをガラリと変える必要があります。

3. 検証済みの確定事実(一次文献照合済み)

3.1 CoTは「数学・記号推論専用ツール」に格下げされた

Sprague et al. 2024("To CoT or not to CoT?", arXiv 2409.12183, ICLR 2025、UT Austin / Johns Hopkins / Princeton、100本超のメタ分析 + 14モデル×20データセット)が決定打。CoTは数学・論理タスクで強い性能向上をもたらすが、他タイプのタスクでの向上は遥かに小さい。MMLUでは、問題またはモデル応答に等号が含まれない限り、CoTなしの直接生成がCoTとほぼ同一の精度になる。MMLU利得の約95%が「=」を含む問題に帰属する

機序: CoTは中間推論ステップをトークン列として外在化させることで記号操作の作業領域を確保する手法だが、その利得は記号的計算を要するタスクに限局する。知識想起・翻訳・一般記述では、外在化が精度に寄与しないため直接生成と差がつかない。

テキサス大学などの大規模研究 Sprague et al. 2024(arXiv 2409.12183)により、「段階的に考えさせる(CoT)」指示が有効なのは数学や論理パズルなどの計算タスクのみであることが示されました。一般的な知識問題のテスト(MMLU)において、問題文や回答に「等号(=)」が含まれない場合、CoTを行っても行わなくても回答の正確性はほぼ変わりません。CoTによって得られたスコア向上の約95%が、数式(等号)を含む問題によるものでした

実務上の動作: 段階的な思考は、数式の計算用紙として機能しますが、知識の引き出しや翻訳、普通の記述といったタスクでは、余計な手順を踏むだけで精度向上には結びつきません。

Sprague et al. 2024(arXiv 2409.12183)という超大型の調査で、「ゆっくり考えさせる(CoT)」指示の実態が明らかになりました。この方法は「数式やパズル」には劇的に効くものの、それ以外の日常的な文章作成や対話では、ほとんど意味がないことが分かったのです。一般的なテスト(MMLU)では、数式(等号「=」)が出てこない問題においては、直接答えさせるのもじっくり書かせるのも成績は同じでした。なんとCoTのおかげで伸びた成績の約95%は、数式(=)を解く問題によるものだったのです

直観的なイメージ: CoTは「算数の計算用紙」です。計算用紙は計算するときには絶対に必要ですが、単なる暗記問題や作文のときに白紙の計算用紙を目の前に置かれても、何の意味もないのと同じです。

3.2 推論モデルではFew-shot・CoT指示が有害または冗長

Nori, Usuyama et al. 2024("From Medprompt to o1", arXiv 2411.03590, Microsoft Research)が実測で示した。o1-previewにおいてFew-shotプロンプティングは性能を阻害し、in-context learningはもはや有効なステアリング手法ではない。DeepSeek-R1の公式テクニカルレポートも「Few-shotは一貫して性能を低下させる。ゼロショットで問題を直接記述し出力フォーマットを指定することを推奨」と明記。OpenAI公式も推論モデルへのCoT指示を「不要」としている。

機序: 推論モデルはRL訓練を通じて内部でCoTを自律実行する挙動を獲得済みのため、外部からのCoT指示や少数例提示は内部推論と干渉・重複し、ステアリング効果を失う。

マイクロソフトなどの研究 Nori et al. 2024(arXiv 2411.03590)によると、最新の思考型AI(o1-preview等)にいくつかの手本(Few-shot)を見せる手法は、むしろ精度を下げることが実測されました。また、DeepSeek-R1の公式報告書でも「手本(Few-shot)は一貫して性能を低下させるため、例示なしで直接指示しフォーマットのみを指定することを推奨」と明記され、OpenAI公式も「段階的な思考指示(CoT)は不要」としています。

実務上の動作: 思考型AIは、自律的に裏で考えるようにあらかじめ訓練されているため、人間から手本や思考手順を押し付けられると、自分自身の自律的な思考ルーチンと干渉を起こして混乱してしまうためです。

マイクロソフトの研究(Nori et al. 2411.03590)で、考えるAI(o1など)に対して「いくつかのお手本(Few-shot)」を見せるやり方は、むしろ邪魔にしかならないことが証明されました。話題のDeepSeek-R1の公式レポートでも「お手本(Few-shot)を載せるとAIの成績が一貫して下がる。例を挙げるのはやめて、ダイレクトに問題を出し、出力の形だけを指定するのがベスト」と書かれています。OpenAI公式も「段階的に考えろ(CoT)」という指示は不要だと明言しています。

直観的なイメージ: 自律的に考えるプロの職人に対して、素人が「こういう手本に従って、まずこうして、次にこうやって…」と横から細かく口を出すようなものです。職人のペースが狂い、パフォーマンスが落ちてしまうのです。

3.3 専門家ペルソナは事実精度を下げる

Hu et al. 2026("Expert Personas Improve LLM Alignment but Damage Accuracy", arXiv 2603.18507, USC、著者 Zizhao Hu, Mohammad Rostami, Jesse Thomason)が数値で示した。6モデル×12ペルソナの大規模検証。MMLUにおいて専門家ペルソナを付与した全バリアントで精度が低下し、ベースライン71.6%に対し最小ペルソナでも68.0%(-3.6ポイント)、詳細な長いペルソナではさらに66.3%(-5.3ポイント)まで低下するペルソナは詳細であるほど害が大きい(用量反応関係)。短くすれば緩和されるが完全には消えない。Zheng et al. 2024(arXiv 2311.10054、162ロール)も同方向の結論。

機序: モデルが「専門家らしく、自信に満ちたトーンで振る舞う」演技・文体調律(instruction-followingモード)に計算リソースを優先的に奪われ、事前学習で獲得した事実知識の検索想起が阻害される。ペルソナ記述が詳細であるほど演技負荷が増すため、害が用量依存的に増大する。

南カリフォルニア大学のHuらによる2026年の研究(arXiv 2603.18507)によると、AIに「あなたは経験豊富な専門家です」といった役割(ペルソナ)を与える指示は、事実の正確性を損なうことが明らかになりました。6モデル・12役割での検証の結果、元々の知識テストの成績(ベースライン71.6%)に対し、簡潔な役割設定でも68.0%(-3.6ポイント低下)、詳細な長い役割設定ではさらに66.3%(-5.3ポイント低下)まで成績が低下しました。また、Zheng et al. 2024(arXiv 2311.10054)による162役割の評価でも、同様の傾向が確認されています。

実務上の動作: AIが「専門家らしく自信満々に喋る」という指示(文体と態度のコントロール)を優先するあまり、脳の処理リソースが奪われ、本来持っていた正しい知識を思い出す作業が疎かになってしまうためです。役割の記述が細かいほど、この悪影響は増大します。

Hu et al. 2026(arXiv 2603.18507)が示した不都合な真実は、AIに「ノーベル物理学賞の受賞者として答えて」と役割(ペルソナ)を与えるほど、正解率が下がるという事実です。6つのAIモデルに12種類の専門家役を演じさせたところ、普通に聞けば正解率71.6%(ベースライン)だったテストが、簡単な役作りで68.0%(-3.6ポイント)、長文のコダワリ役作りではさらに66.3%(-5.3ポイント)にまで下がりました。Zheng et al. 2024(arXiv 2311.10054)の162種類の役割テストでも、同じ失敗が確認されています。

直観的なイメージ: 試験に臨む学生に対し、「専門家らしく、自信に満ちた渋い声と完璧なジェスチャーで答えなさい」と無理な注文をつけるようなものです。学生は「演技」に気を取られすぎて、知っているはずの公式(知識の想起)が抜け落ちてしまうのです。

3.4 EmotionPromptは再現失敗(通説の覆り)

Li et al. 2023(arXiv 2307.11760)の「BIG-Benchで最大+115%」という当初の主張は、後続の厳密な再現研究で否定された。

【引用訂正】 この再現研究の正しい第一著者は Laurène Vaugrante(共著 Mathias Niepert, Thilo Hagendorff、arXiv 2409.20303, TMLR)である。当初3LLMのうち2つが「Lorè et al.」と誤記していたが、これは誤り。

検証対象は GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B/70B。CommonsenseQA・CRT・NumGLUE・ScienceQA・StrategyQAで再現を試み、ほぼ全テクニックで統計的有意差が見られなかった。平均改善率はわずか+1%(χ²=0.11, p=0.74)

※エビデンスの射程に関する注記: この再現研究の対象は非推論モデルのみであり、推論ネイティブモデルは含まれない。したがって「推論モデルでEmotionPromptが効かない」という判定は、非推論モデルでの再現失敗と公式ガイダンスからの合理的外挿であって、推論モデルでの直接エビデンスではない。判定の方向(入れる価値はない)は妥当だが、根拠の直接性は区別して扱う。

機序: 初期研究では金銭インセンティブや切迫感の提示がアテンションの重み付けを変化させると解釈されたが、主要モデルでの再現実験ではこの効果は統計的ノイズに埋もれた。初期の有効性報告は特定モデル・特定タスクへの過適合だった可能性が高い。

かつて「感情に訴えかける(例:『これは私のキャリアにとって非常に重要です』)と、AIの回答精度が最大+115%向上する」と主張した論文(Li et al. 2023, arXiv 2307.11760)は、その後の厳密な再テストで否定されました。

【引用訂正】 この再現研究を行った正しい著者は Laurène Vaugrante ら(arXiv 2409.20303)です(当初AIが「Lorè」と誤記していたため訂正)。彼らがGPT-4oやClaude 3 Opus等の主要モデルを用いて数学や科学のデータセットで再テストしたところ、統計的な有意差はほぼなく、平均の成績向上はわずか+1%(χ²=0.11, p=0.74)に留まりました。

※検証範囲についての補足: この再現テストは従来型のAIモデル(非推論モデル)のみを対象にしており、新しい思考型AIモデル(推論モデル)での直接実験ではありません。しかし、従来型ですら効果がなく、かつ最新の公式推奨でも否定されているため、「使う価値なし」との判断が実務のコンセンサスです。

実務上の動作: 初期研究で見られた感情的表現による改善は、特定の古いモデルや特定のタスクで偶然生じた偏り(過適合)であり、汎用的な効果ではなかったとされています。

「これを間違えたら私はクビになります、助けて!」とAIを脅したり情に訴えかけたりすると、成績が最大+115%も跳ね上がるという有名な説(Li et al. 2023, arXiv 2307.11760)がありました。しかし、これもその後の厳密な再テストで「効果なし」と結論づけられました。

【引用訂正】 再テストの論文の著者は Laurène Vaugrante(arXiv 2409.20303)です(過去にAIが「Lorè」と誤記したため修正)。主要なAI(GPT-4o, Gemini 1.5, Claude 3等)でテストしたところ、脅しや励ましを使っても成績はわずか+1%(χ²=0.11, p=0.74)しか変わらず、効果は誤差の範囲内でした。

※補足: この実験は従来のAI(考える時間を持たないモデル)で行われたものです。最新の「考えるAI」での直接テストではありませんが、公式ガイドでも「感情表現は不要」とされており、もはや脅しや泣き落としを使う利点はありません。

直観的なイメージ: AIは感情を持つロボットではないため、「クビになる!」と泣きつかれても、出力の確率計算(アテンションの重み)が気まぐれに少し動くだけです。その影響は気休め程度(+1%)であり、結果は毎回バラバラのノイズにしかなりません。

3.5 プロンプト反復は「非推論モデル限定」で強力

Leviathan, Kalman, Matias(Google Research, "Prompt Repetition Improves Non-Reasoning LLMs", arXiv 2512.14982, 2025年12月)。クエリを <QUERY><QUERY> のように重複入力する手法。

検証は7モデル×7ベンチマーク(Gemini 2.0 Flash/Flash-Lite、GPT-4o-mini/GPT-4o、Claude 3 Haiku/3.7 Sonnet、Deepseek V3 / ARC・OpenBookQA・GSM8K・MMLU-Pro・MATH + 独自タスクNameIndex・MiddleMatch)。

  • 非推論時:70対戦中47勝0敗(McNemar検定 p<0.1)。代表値はGemini 2.0 Flash-LiteのNameIndexが21.33%→97.33%へ向上。
  • 推論時:5勝1敗22引き分けで「中立〜わずかにポジティブ」
  • 生成トークン数とレイテンシは増えない(反復は並列化可能なprefill段階で処理されるため)。

【捏造訂正】 当初Geminiが提示した「13モデル・334実験」「47.8%→74.6%」「推論モデルで75%→61%へ過剰適合」はすべて原論文に存在しない捏造であった。とりわけ「75%→61%への精度低下(有害)」は方向が真逆で、原論文の結論は「neutral to slightly positive」。推論モデルでは「有害だから排除」ではなく「効果が薄いから不要」が正確

機序: 入力を反復させると、2回目の反復部分に含まれる全トークンが1回目の反復部分にある「問い」を含む全コンテキストを参照可能になり、一方向アテンションのモデルでも実質的な双方向(Bidirectional)エンコーディングに近づく。推論モデルではRL訓練の過程で自発的にプロンプトの一部を繰り返す挙動を内部獲得済みのため、外部からの明示的反復は冗長になる。

Google ResearchのLeviathanら(2025年12月, arXiv 2512.14982)による研究では、プロンプトの質問文をわざと2回連続で繰り返して入力する(プロンプト反復)という手法が、特定条件下で有効であることが分かりました。7モデル・7評価基準の検証結果は以下の通りです。

  • 思考プロセスを持たない従来型AI:効果は絶大(70検証中47勝0敗、統計的有意差 p<0.1)。例えば、Gemini 2.0 Flash-Liteでの特定タスク正解率が21.33%から97.33%に劇的改善
  • 思考型AI(推論モデル):5勝1敗22引き分けで「ほぼ効果なし(中立)」
  • 処理時間やAPI費用は増えません(最初の読み込みPrefill段階で並列処理されるため)。

【捏造訂正】 以前、検証AIが「13モデル・334実験で47.8%→74.6%に向上」「思考型AIでは75%→61%に精度低下し過剰適合する」という数値を提示しましたが、これらはすべて論文にない捏造でした。思考型AIでの実際の結果は「有害で低下する(75%→61%)」ではなく「やってもあまり意味がない(中立)」です。

実務上の動作: 従来型AIは同じ質問を2回読まされることで、1回目の記憶を踏まえて全体を深く把握できるようになります。一方、思考型AIは、最初から内部で質問を咀嚼するルーチンを持っているため、わざわざ2回繰り返してあげる必要はありません。

Google Research(Leviathan et al. 2025, arXiv 2512.14982、2025年12月発表)による面白い知恵袋があります。質問を「〜について教えて。もう一回言うけど、〜について教えて」と2回重ねて入力する(プロンプト反復)と、従来のAIが急に賢くなるのです。7つのAIモデルでテストした結果がこちら:

  • 考える時間のない従来のAI:70回の勝負で47勝0敗(McNemar検定 p<0.1)の完全勝利。Gemini 2.0 Flash-Liteの記憶テストでは、正解率が21.33%から97.33%へ跳ね上がりました
  • 考える機能付きの最新AI:5勝1敗22分で「引き分け(やってもやらなくても同じ)」
  • AIの喋るスピードやお金(トークン数)は増えません(AIが最初の読み込み時に同時に処理するため)。

【捏造訂正】 かつてAIが「13モデル334回テストで47.8%から74.6%になった」「考えるAIでは75%から61%に成績が落ちて過剰適合した」と説明していましたが、これらはすべて捏造された数字です。実際には、考えるAIで「75%→61%に悪化する」のではなく、「効果がないため不要」というのが正しい結論です。

直観的なイメージ: 一方向しか見られないAIに同じ指示を2回投げると、「あ、これさっきも聞いたな」と、視野が広がり全体を見渡せるようになります。しかし、自前でじっくり考えるAIは最初から頭の中で問題をリピートして整理しているため、外から二度言ってあげる必要はありません。

flowchart TD subgraph NormalPrefill ["Standard Input: One-way Causal Attention"] T1["Token 1"] --> T2["Token 2"] --> T3["Token 3"] end style T1 fill:#F5F4F1,stroke:#524C49 style T2 fill:#F5F4F1,stroke:#524C49 style T3 fill:#F5F4F1,stroke:#524C49
flowchart TD subgraph RepetitionPrefill ["Prompt Repetition: Bidirectional Encoding Effect"] subgraph FirstPass ["1st Query - Prefill Stage"] Q1["Q1"] --> Q2["Q2"] --> Q3["Q3"] end subgraph SecondPass ["2nd Query - Bidirectional reference"] Q1_2["Q1'"] --> Q2_2["Q2'"] --> Q3_2["Q3'"] end Q1_2 -.->|"Attend"| Q1 Q2_2 -.->|"Attend"| Q2 Q3_2 -.->|"Attend"| Q3 end style Q1 fill:#F5F4F1,stroke:#3A2033 style Q2 fill:#F5F4F1,stroke:#3A2033 style Q3 fill:#F5F4F1,stroke:#3A2033 style Q1_2 fill:#E6CFAB,stroke:#C42E46 style Q2_2 fill:#E6CFAB,stroke:#C42E46 style Q3_2 fill:#E6CFAB,stroke:#C42E46
flowchart TD subgraph StdInput ["通常の1回入力"] S1["最初の単語"] --> S2["途中の単語"] --> S3["最後の質問"] end style S1 fill:#F5F4F1,stroke:#524C49 style S2 fill:#F5F4F1,stroke:#524C49 style S3 fill:#F5F4F1,stroke:#524C49
flowchart TD subgraph RepInput ["プロンプトの反復 - 二度書き"] subgraph FirstQuery ["1回目のプロンプト - メモリ展開"] A1["単語A"] --> A2["単語B"] --> A3["質問"] end subgraph SecondQuery ["2回目のプロンプト - 重ね合わせ処理"] B1["単語A'"] --> B2["単語B'"] --> B3["質問'"] end B1 -.->|"1回目を参照"| A1 B2 -.->|"1回目を参照"| A2 B3 -.->|"1回目を参照"| A3 end style A1 fill:#F5F4F1,stroke:#3A2033 style A2 fill:#F5F4F1,stroke:#3A2033 style A3 fill:#F5F4F1,stroke:#3A2033 style B1 fill:#E6CFAB,stroke:#C42E46 style B2 fill:#E6CFAB,stroke:#C42E46 style B3 fill:#E6CFAB,stroke:#C42E46
flowchart TD subgraph SingleRead ["一度きりの読書"] R1["文字を順に追う"] --> R2["読み進めるだけ"] end style R1 fill:#F5F4F1,stroke:#524C49 style R2 fill:#F5F4F1,stroke:#524C49
flowchart TD subgraph DoubleRead ["二度見・二度聞き効果"] subgraph Pass1 ["1回目の聞き流し - 頭の中に残像ができる"] P1_1["言葉A"] --> P1_2["言葉B"] --> P1_3["質問の核心"] end subgraph Pass2 ["2回目のしっかり聞き - 残像と重ね合わせ"] P2_1["言葉A'"] --> P2_2["言葉B'"] --> P2_3["質問の核心'"] end P2_1 -.->|"残像と重ね合わせ"| P1_1 P2_2 -.->|"残像と重ね合わせ"| P1_2 P2_3 -.->|"残像と重ね合わせ"| P1_3 end style P1_1 fill:#F5F4F1,stroke:#3A2033 style P1_2 fill:#F5F4F1,stroke:#3A2033 style P1_3 fill:#F5F4F1,stroke:#3A2033 style P2_1 fill:#E6CFAB,stroke:#C42E46 style P2_2 fill:#E6CFAB,stroke:#C42E46 style P2_3 fill:#E6CFAB,stroke:#C42E46

3.6 Chain of Draft(CoD)は推論モデルの冗長性圧縮に有効

Xu et al. 2025("Chain of Draft: Thinking Faster by Writing Less", arXiv 2502.18600)。検証モデルはGPT-4oとClaude 3.5 Sonnet。

  • GSM8K:CoT 95.3% → CoD 91.4%(精度低下を最小限に抑制)。トークンは最小7.6%まで圧縮(約80〜92%削減)
  • レイテンシ削減:GPT-4oで76.2%、Claude 3.5 Sonnetで48.4%

【二次情報の誤帰属訂正】 当初Geminiが提示した「AWS環境下でレイテンシ52-79%削減・平均75%削減」は原論文に存在せず、二次ブログの数値を原論文値として誤帰属したもの。原論文値は上記(48.4%〜76.2%)。

【運用上の注記】 「最大5語」は原論文中の制約例であって理論的閾値ではない。実務では「簡潔なドラフト」程度の運用で足り、5語を機械的に厳守する必要はない。

機序: 人間が複雑な計算時に冗長な文章ではなくメモ帳の端に数式や単語(ドラフト)を書き留めて思考を整理するプロセスを、LLMにエミュレートさせる。各思考ステップを冗長な説明文なしの極小ドラフトに圧縮させることで、アテンションのオーバーフローを抑え計算効率を高めつつ論理コアを保つ。

Xuらによる2025年の研究(arXiv 2502.18600)「Chain of Draft(CoD)」は、AIに丁寧な文章ではなく「単語や数式だけのメモ書き(ドラフト)」で考えさせることで、処理スピードを劇的に上げるテクニックです。GPT-4oとClaude 3.5 Sonnetでの検証データ:

  • 難関の算数テスト(GSM8K):通常の詳細思考(95.3%)に対し、簡潔なドラフト思考(91.4%)と精度低下を抑えつつ、トークン消費量を最小7.6%(約80〜92%削減)に激減させました。
  • 応答スピード(レイテンシ削減):GPT-4oで76.2%、Claude 3.5 Sonnetで48.4%の高速化を達成。

【二次情報の誤帰属訂正】 かつて「AWS環境下で52-79%削減、平均75%削減」という報告がされましたが、これは原論文ではなく二次ブログの数値の混同(誤帰属)でした。正しい論文値は上記(48.4%〜76.2%)。

【運用のアドバイス】 論文では「最大5語」でメモをとらせる実験がありましたが、これはテストのルールにすぎません。実務では「極力短く、箇条書きや単語で考えよ」と指示するだけで十分に機能します。

実務上の動作: AIに丁寧な中間報告をさせず、最小限のメモだけでロジックを処理させることで、処理時のメモリと時間の浪費をカットします。

Xu et al. 2025(arXiv 2502.18600)が提唱する「Chain of Draft(CoD)」は、いわばAIの「メモ書き思考法」です。「考えを丁寧な日本語で書きながら考えなさい」と言うのをやめ、「メモ用紙の端に単語や数式だけを書き留めて考えなさい」と指示します。GPT-4oとClaude 3.5 Sonnetでの成果は以下の通りです:

  • 数学テスト(GSM8K):丁寧な思考(95.3%)に対し、簡潔なメモ書き(91.4%)と実用上十分な精度を保ちながら、消費する文字数(トークン)を最小7.6%(約80〜92%削減)まで圧縮しました。
  • 考える時間(レイテンシ削減):GPT-4oで76.2%、Claude 3.5 Sonnetで48.4%も回答が早くなりました。

【二次情報の誤帰属訂正】 以前「AWSで52-79%削減、平均75%カット」というブログ記事の数値を論文の値として誤って紹介していましたが、正しくは上記の数値(48.4%〜76.2%)です。

【運用のヒント】 論文では「最大5語」という厳しい縛りで検証されていましたが、実際の仕事では「なるべく箇条書きや単語で手短にメモを取って」と伝えるだけで効果が出ます。

直観的なイメージ: 暗算をするとき、人間も頭の中で「まずAをBにして…」と丁寧に言語化はしません。頭の中では「A=10, B=20」と要点だけを書き留めるはずです。AIにも同じ簡潔な思考をさせることで、処理速度を大きく高められます。

3.7 外部信号なきSelf-Refineは精度を下げる

Huang et al. 2023("Large Language Models Cannot Self-Correct Reasoning Yet", DeepMind / UIUC)以降のコンセンサス。コンパイラ・テスト環境・人間レビューなどの外部信号を伴わないLLM単独の内省的自己修正ループは、推論タスクにおいてエラーを別のエラーに書き換えるか、正常な回答を誤謬へ劣化させる。外部検証が伴う場合のみ有効

機序: モデルは自らの直前の出力を正当化する自己同一性バイアスを持つ。Tyen et al. 2024(arXiv 2311.08516)の通り、モデルは自らの推論エラーを自発的に特定する能力が著しく低いため、エラー位置を外部から与えられない限り内省単独では誤謬を温存・再生産する。

Google DeepMindなどの研究(Huang et al. 2023)により、AIに「自分の書いたコードや文章を自分で読み返して修正しなさい(Self-Refine)」と指示するだけでは、かえって精度が低下するという共通認識が得られました。プログラムの実行チェッカーや、人間によるチェックなどの「外部の正しいフィードバック」がない自己修正は、元の正解を台無しにするか、別の間違いを生むだけです。

実務上の動作: AIには「自分が最初に出した答えが正しい」と思い込むバイアスがあります。Tyenら(2024年、arXiv 2311.08516)の検証通り、AIは自分の間違いの場所を自力で見つける能力が低いため、外部から「ここがおかしい」と指摘されない限り、間違いを再生産してしまいます。

DeepMindらの研究(Huang et al. 2023)が示したのは、「自分の書いた答えを自分で見直して直して(Self-Refine)」とAIに頼んでも、独りよがりに終わり成績が落ちるという事実です。実行可能なテスト環境や、人間による指摘などの「外部からの正しいフィードバック(外部信号)」なしに自己修正させると、正しい答えを誤った方向に書き換えたり、別の誤りを重ねたりします。

直観的なイメージ: テスト中に「自分の書いた答えを自分で見直しなさい」と言われても、そもそもその解き方で合っていると思い込んでいる(自己同一性バイアス)ので、間違いを見つけられません(Tyen et al. 2024, arXiv 2311.08516)。間違いを見つけるには、先生(外部信号)に「この3行目がおかしいぞ」と赤ペンを入れてもらう必要があります。

3.8 構造化出力の一発強制は「能力税(Format Tax)」を課す

Tam et al. 2024("Let Me Speak Freely?", arXiv 2408.02442)と Lee, D'Antoni, Berg-Kirkpatrick 2026("The Format Tax", arXiv 2604.03616, UC San Diego、2026年4月)。最初の思考フェーズからJSON/XML/LaTeX/Markdown等の構造化出力を強制する指示は、論理展開と記述の自由度を縛り、推論・執筆性能を低下させる。Lee et al.の重要な特定は、性能低下の主因はconstrained decoding(デコーダ制約)ではなく、フォーマット要求の指示そのものがプロンプト段階で生じさせているという点。回避策は「freeformで先に生成して第二パスで再フォーマット」または「単一生成内でextended thinkingを有効化」。「推論とフォーマットを分離せよ」が新コンセンサス

※射程の限定・利明に直結する重要事項: Lee et al.が観測したFormat Taxは主としてオープンweightモデル(qwen3, olmo3, smollm3, nemotron3等)で生じる。原論文は「最新のクローズドweightモデルはformat taxをほとんど示さない。問題は構造化生成に内在するものではなく、現行のオープンモデルがまだ埋めていないギャップだ」と明言している。したがってClaude Opus等の最新クローズドモデルを使う場合、一発JSON出力でも実害は小さい可能性が高い。二段階生成は安全側の選択として有効だが、クローズドモデルでは「常に必須」ではなく、不要な二段階パイプラインを組んで工数を浪費しないよう射程を見極めること。

機序: 最初の思考ステップから厳格な構造を課されると、モデルは論理展開とフォーマット遵守を同時に処理せざるを得ず、自由な推論の余地が縛られる(思考とフォーマットの競合)。思考フェーズを自由形式に保ち、フォーマット化を別パスに分離すればこの競合が解消する。

Tam et al. 2024(arXiv 2408.02442)およびカリフォルニア大学のLeeらによる2026年4月の研究(arXiv 2604.03616)は、「最初からJSONやXMLなどの特定の形式(フォーマット)で出力しなさい」と指示すると、AIの思考能力(推論・記述)が低下することを示しました。これを「フォーマット税(Format Tax)」と呼びます。対策は「まずは自由形式で考えさせて出力させ、その後に別プロセスでJSON等に再成形する(二段階処理)」か「拡張思考モードで考えさせる」ことです。

※クローズドモデル(GPT-4oやClaude 3.5/Opusなど)での注意点: このフォーマット税が顕著に発生するのは、主にオープンソースの軽量モデル(Qwen3やLlamaなど)です。論文では「GPTやClaudeなどの主要な最新クローズドモデルでは、フォーマット税はほとんど見られない」とされています。そのため、実務で強力な商用モデルを使う場合は、無理に処理を二段階に分けずとも、一発でJSON出力させても問題ないことが多いです。

実務上の動作: 思考と同時に「綺麗なJSONのカッコを閉じる」といった細かな書式ルールを守ろうとすると、AIの脳(アテンション)がそちらに割かれてしまい、肝心のロジック処理が甘くなってしまうためです(思考と書式の競合)。

「最初から綺麗に整理されたJSONや表で出力しなさい」と縛り付けると、AIの考える力が落ちてしまいます。これをTam et al. 2024(arXiv 2408.02442)やLee et al. 2026(arXiv 2604.03616, 2026年4月)は「フォーマット税(Format Tax)」と名付けました。頭を良く働かせるには、「まずは自由に喋らせて、その後に綺麗に包装し直す(二段階)」のが安全な知恵です。

※賢い商用AI(Claude Opusなど)では心配なし: 幸いなことに、この「フォーマット税」に苦しむのは、主に身軽なオープンソースAI(Qwen3やsmollm3など)です。頭の良い商用モデル(Claude Opusなど)であれば、この税金はほとんど引かれません。そのため、Claudeなどを使う実務では、無理に二段階に分けて遠回りしなくても、最初から一発でJSONにまとめて出力させても大丈夫です。

直観的なイメージ: 「今から超難解な数学の公式を考えて。ただし、最初から一筆書きの綺麗な習字で書いてね」と命令するようなものです。文字を綺麗に書く(フォーマット)ことに気を取られすぎて、肝心の数式(推論)の計算ミスをしてしまいます。まずは裏紙に汚く計算させ、後から清書させるのが一番です。

3.9 XML/Markdown構造化は世代横断で生存

Anthropic公式(Claude 4系)がXMLタグを最優先プラクティスとして維持。OpenAI公式(o1/o3)も区切り記号(Markdown・XMLタグ・セクション見出し)を推奨。世代横断で有効性が維持されている数少ない実用テクニック

※数値の出所に関する注記: Anthropic公式が出している数値は「長文脈タスクで末尾にクエリを配置すると最大30%応答品質が向上」のみで、これは長文脈ポジショニングに関する数値であって「XMLタグ自体の効果」ではない。よく流通する「XMLで20-40%一貫性向上」はAnthropic公式ではなく第三者解説サイト由来であり、混同しないこと。

機序: XML/Markdownの明示的な区切りはコンテキストの境界をモデルに知らせ、各情報ブロックの役割(指示・データ・制約)を判別させる。これは特定アテンション制限の欠陥補正ではなく入力構造の明確化であるため、非推論・推論を問わず効く。

Anthropic(Claude 4系)やOpenAI(o1/o3)などの公式ドキュメントは、一貫してXMLタグ(例:<rules>...</rules>)やMarkdownによるプロンプトの構造化を推奨し続けています。多くのプロンプトテクニックが廃れていく中、これは世代を問わず効果が残り続けている数少ない必須アプローチです。

※数値の誤解釈に対する注意: Anthropic公式が公表しているデータ「長いコンテキスト(背景文)の末尾に質問を置くと回答の質が最大30%向上する」は、情報の「位置(ポジショニング)」に関する数値であり、「XMLタグそのものの効果」ではありません。よくネットで見かける「XMLで20-40%精度向上」は公式情報ではなく第三者のブログ由来なので混同しないようにしてください。

実務上の動作: XMLタグや見出しを使うことで、AIに「ここからはルール」「ここからは処理するデータ」とコンテキストの境界線をはっきりと伝えることができます。AIの構造を問わず、情報の仕分けがスムーズになるため精度が安定します。

あらゆる流行り廃りを乗り越え、いまだに「絶対にやるべき」とされ続けているのが、XMLタグ(例:<context>...</context>)やMarkdownを使ってプロンプトを整理整頓するテクニックです。Anthropic(Claude 4系)もOpenAI(o1/o3)も、お墨付きを与えています。

※数値に関する補足: Anthropicが公開している「長い文脈の末尾に質問を置くと、回答品質が最大30%向上する」というデータは、質問を置く「位置」に関するものであり、XMLタグ自体の効果ではありません。ネット上で見かける「XMLを使うと20-40%一貫性が高まる」という数字は、公式ではなく個人のブログが出典なので、公式発表として扱わないよう注意しましょう。

直観的なイメージ: すべての書類がバラバラに突っ込まれた引き出しと、きれいにインデックス(XMLタグ)でファイリングされた引き出しの違いです。AIが「ルール」や「データ」といった必要な情報を瞬時に見つけ出せるため、どんなAIでも必ず処理が正確になります。

3.10 丁寧さの精度効果は世代・言語で一貫しない

Dobariya & Kumar 2025("Mind Your Tone", arXiv 2510.04950, Penn State)はChatGPT-4oでVery Rude 84.8% > Very Polite 80.8%と逆転を観測。旧モデルでは「丁寧>無礼」だったが新モデルでは逆転ないしノイズレベル。精度目的で丁寧さを調整する意味はない(安全性・UX観点は別)。

2025年の研究 Dobariya et al.(arXiv 2510.04950)によると、AIに対して「お願いします」「ありがとうございます」と丁寧に話しかけても、回答精度は向上しないことが分かりました。ChatGPT-4oでの実験では、極めて無礼な口調(正解率 84.8%)の方が、極めて丁寧な口調(80.8%)よりも精度が高いという結果さえ観測されています。現在のAIでは、口調の丁寧さによる精度変化は誤差レベルです。

AIに対して「恐れ入りますが〜していただけますか」と過度にへりくだる必要はありません。Dobariya & Kumar 2025(arXiv 2510.04950)の実験では、ChatGPT-4oに対して非常に無礼な口調で命令したとき(正解率 84.8%)の方が、非常に丁寧に依頼したとき(正解率 80.8%)よりも正解率が高いという逆転すら観測されました。丁寧さは精度には影響しません。

3.11 「禁止」は守られない前提で設計せよ ——制約遵守の不完全さと、推論がそれを悪化させる件

実務上の結論を先に: 「〜するな」と書けば守られる、は誤った前提である。プロンプト設計は「禁止を並べる」のではなく「到達すべきゴール状態を描く」を主軸に組み、禁止は破られても致命的でない硬い境界線のみに限定する。

根拠①:検証可能な単純制約ですら破られる。 Zhou et al. 2023(IFEval, arXiv 2311.07911, Google)は「400語以上で書け」「AIを3回以上言及せよ」のようなプログラムで合否判定できる制約25種・約500プロンプトを構築した。これが「最先端モデルでも機械検証可能な指示を頻繁に破る」ことを示す標準ベンチになった。要点は、曖昧な指示ではなく自動で○×がつく単純制約でも守られないこと。「明確に書けば守られるはず」という設計者の楽観を、このベンチが正面から否定している。

根拠②:推論させると制約遵守はさらに下がる。 Li et al. 2025("When Thinking Fails", arXiv 2505.11423, Harvard / Amazon)は、明示的CoT推論が指示遵守精度を有意に下げる現象を15モデル(Claude 3.7, DeepSeek-R1 含む)× IFEval + ComplexBench で系統的に示した。CoTは書式・語彙の精度では助けるが、単純な制約を取りこぼし、頼んでいない内容を足してくる。著者らは "constraint attention"(制約注意)という指標を作り、CoT推論が指示関連トークンから注意を逸らすことを数値で示した。緩和策として「制約の種類に応じて推論を出し分ける(classifier-selective reasoning)」が失われた性能を大きく回復させると報告している。

機序: モデルは生成中、有限の注意を「内容を作る」側と「制約を守る」側に配分している。CoTを展開させると注意が内容生成に偏り、「Xするな/Xを含めるな」型の制約への注意が薄まる。否定形の制約はもともと注意の維持コストが高い(下記注記)ため、推論の展開で真っ先に脱落する。これは§3.7(外部信号なき自己修正の失敗)とは別の経路で、推論そのものが制約遵守の注意予算を食うという独立した害である。

§3.2との接続: これにより「推論モデルにCoT指示を入れるな」(§3.2)の根拠が一段深まる。従来の理由は「コスト・冗長性」の話だったのに対し、§3.11は「指示が無視される」というより重い前提の話である。両者は別軸として読むこと。

【否定形制約の二重リスクに関する注記】 「禁止を書いても守られにくい」は、否定理解そのものがLLMの構造的弱点であることと重なる。García-Ferrero et al. 2023("This is not a Dataset", arXiv 2310.15941)は、LLMが肯定文の分類は得意な一方、否定文では深い理解を欠き表層的な手がかりに依存すると示した。つまり否定形の指示は (a) 否定理解の弱点 + (b) 制約遵守の不完全さ の二重リスクを負う。

【二次情報の隔離】 「フロンティアモデルが22〜30%失敗」(AdvancedIF, Meta Superintelligence Labs × Surge)等の具体的失敗率は、本資料作成時点でブログ発表のみ・原論文・効果量を一次照合できていないため、本文の確定数値には採用しない。採用には原典照合が前提(付録B-5の原則)。出典付き断定できるのはIFEvalの「検証可能制約25種」とLi 2025の「15モデルで一貫した低下」まで。

実務の結論: AIプロンプトに「〜するな」と書くだけでルールが守られると思うのは間違いです。プロンプト設計は「禁止ルールの列挙」ではなく「完成形(ゴール状態)の定義」を中心に組み立て、禁止ルールは破られても大惨事にならない最低限の境界線のみに留めましょう。

根拠①:検証可能な単純ルールですら破られる。 GoogleのZhouらによる研究(2023年, arXiv 2311.07911, IFEval)は、「400語以上で出力せよ」「AIという言葉を3回以上使え」といった、プログラムで白黒はっきり判定できる25種の制約・約500プロンプトを用いてAIを評価しました。その結果、最新AIであっても、これら単純な個別ルールを頻繁に破ることが実証されています。「はっきり書けば守るだろう」という思い込みは幻想です。

根拠②:深く考えさせると、ルールはさらに破られる。 ハーバード大学らの研究(Li et al. 2025, arXiv 2505.11423)は、「段階的に考えろ(CoT)」とAIに考えさせると、かえって指示を守らなくなる現象を、Claude 3.7やDeepSeek-R1を含む15モデル(IFEval等)の検証で明らかにしました。考えさせる指示を入れると、AIは論理的になりますが、肝心の「この言葉を含めるな」といった制限を取りこぼしたり、頼んでいない余計な内容を付け加えたりします。

実務上の動作: AIは回答を作成する際、「内容を考えること」と「ルールを守ること」の2つに処理能力を配分しています。CoTで思考を展開すると、脳の処理能力が「内容作り」に偏ってしまい、「〜するな」という制限への注意が薄れて忘れてしまうのです。これは、否定語を正しく解釈するのが苦手なAIの構造的弱点(García-Ferrero et al. 2023, arXiv 2310.15941)とも重なり、二重のリスクを抱えています。

【補足】 ネット記事などで「最新モデルでもルールの22〜30%に失敗する」といった具体的な失敗率(AdvancedIF)が書かれていますが、これらはまだ公式な論文として裏付けが取れていないため、実務上の断定的な数字としては扱いません。

直観的な結論: AIに「〜するな」という禁止令をどれだけ並べても、守られるとは限りません。プロンプトを作るときは「立ち入り禁止の壁」を作るのではなく、「進むべき目的地(ゴール)」をはっきり指し示すように設計するのがプロのやり方です。

根拠①:単純なお約束さえ守れない。 Google(Zhou et al. 2023, arXiv 2311.07911, IFEval)は、「400語以上で書きなさい」「『AI』という単語を3回以上使いなさい」といった、プログラムで自動採点できる25種類のルール(約500プロンプト)でAIをテストしました。その結果、どれだけ賢いAIであっても、この単純な約束を頻繁に忘れてしまうことがわかりました。「言えば分かる」というのは人間の甘い期待です。

根拠②:考えさせると、約束をますます忘れる。 ハーバード大学らの研究(Li et al. 2025, arXiv 2505.11423)では、「じっくり考えて(CoT)」と促すと、ルールを守る能力が大きく下がるという事実が、Claude 3.7やDeepSeek-R1などを含む15モデルの実験で判明しました。考えるAIは、論理的な思考に集中するあまり、「文字数を守る」「この単語を使わない」といった単純なルールを取りこぼしてしまいます。

直観的なイメージ: AIの頭の中の集中力(アテンション)は限られています。深く考えさせると、「内容を充実させること」に集中力を使い果たし、「〜を含めない」といった禁止事項への注意力がすっかり抜け落ちてしまうのです。これはAIが「〜しない」という否定の表現そのものを処理するのが苦手な性質(García-Ferrero 2023, arXiv 2310.15941)とも重なり、二つの大きな弱点となっています。

【補足】 巷のブログで「AIはルールの22〜30%を破っている」という具体的なパーセンテージ(AdvancedIF)が出回っていますが、これはまだ論文として査読されていない暫定データなので、決定的なファクトとしては取り扱いません。

4. 最終実務判定マトリクス(推論ネイティブモデル前提)

※Claude Opus等の推論ネイティブモデルを前提とした、2026年5月時点の判定。

テクニック 推論モデルでの判定 一次文献に基づく根拠
XMLタグ / Markdown構造化 XMLタグ / Markdown構造化 XMLタグやMarkdownで区切る
✅ 最優先 ✅ 必須 ✅ 超おすすめ
世代横断で生存確認。長文末尾クエリで最大30%向上(Anthropic公式・長文脈ポジショニング数値) あらゆる世代のAIで効果あり。長い文章の末尾に質問を置くと最大30%品質が向上(Anthropic公式データ) 新旧どのAIでも効果抜群。長い文章の最後に質問を配置すると最大30%賢くなる(Anthropic公式)
タスク・制約・期待出力の明示 タスク・制約・期待出力の明示 ゴール、ルール、出力形式をハッキリ書く
✅ 最優先 ✅ 推奨 ✅ おすすめ
抽象排除・ゴールと境界条件のみ記述。過剰なプロセス指示は不要 指示の曖昧さをなくし、ゴールと限界線のみ伝える。途中の手順を細かく指示する必要はありません 「お任せ」を避け、ゴールと超えてはいけない線だけ伝える。やり方まで口出ししないこと
ゴール状態の記述(禁止より優先) ゴール状態の記述(禁止より優先) 禁止するより「どうあってほしいか」を書く
✅ 設計の主軸 ✅ 基本方針 ✅ 基本方針
§3.11:検証可能制約でも遵守は不完全(IFEval)、推論誘導で悪化(Li 2025)。否定形は二重リスク §3.11:単純ルールですらAIは忘れる(IFEval)。さらに「考えさせる指示」があると遵守率が低下(Li 2025)。 §3.11:簡単な約束もAIは忘れがち(IFEval)。深く考えさせると約束をさらに破るようになります(Li 2025)。
Zero-shot CoT("step by step") Zero-shot CoT(「順を追って〜」) 「順を追って考えて」と指示する
❌ 原則削除 ❌ 削除 ❌ 使わない
Sprague 2024:利得約95%が「=」含むタスク。推論モデルは内部実行のため冗長。さらにLi 2025:制約遵守を下げる Sprague 2024:向上の約95%が数式(=)を含む計算問題。思考型AIは勝手に考えるため不要。さらにLi 2025で遵守低下 Sprague 2024:効果の約95%は数式(=)がある計算だけ。自分で考えるAIには二重の無駄になり、Li 2025のルール忘れを招く
Few-shot(推論誘導) Few-shot(思考手順の手本) 考え方のお手本を見せる(Few-shot)
❌ 原則削除 ❌ 削除 ❌ 使わない
Nori 2024:推論モデルで精度低下 Nori 2411.03590:最新の思考型AIではむしろ成績が下がります Nori 2411.03590:考えるAIの思考ルーチンを狂わせ、成績を落とします
Few-shot(フォーマット模倣) Few-shot(出力形式の指定) 出力する形(見た目)だけ手本を見せる
⚠️ 最小限のみ ⚠️ 限定的に使用 ⚠️ 必要な時だけ
スタイル固定のみ限定有効。複雑タスクは二段階生成へ 書き方のトーンを真似させるだけなら有効。複雑な処理は「二段階処理」へ逃がすのが無難 「言い回し」を真似させるだけならOK。複雑な形式変換は別プロセスに切り分けましょう
ペルソナ(精度目的) ペルソナ(精度向上のための役割付与) 賢くするために「専門家」の役割を与える
❌ 完全排除 ❌ 削除 ❌ やめる
Hu 2026:MMLUで71.6%→68.0%(最小)/66.3%(詳細)に低下。詳細なほど害大 Hu 2603.18507:役割を与えると正答率が71.6%から68.0%(簡潔な設定)や66.3%(詳細な設定)へ低下 Hu 2603.18507:普通の正解率71.6%が、簡単な役作りで68.0%、細かい役作りで66.3%へと劇的に下がります
ペルソナ(トーン/スタイル/境界制御) ペルソナ(会話の雰囲気・セキュリティ制御) 口調や話し方のキャラ付け
✅ スタイル目的のみ ✅ スタイル目的のみ ✅ 口調のキャラ付けのみ
文体・トーン・セキュリティ境界の維持には有効 「〜のような丁寧な口調で答えて」といった話し方や、制限事項の遵守には依然として有効です 「丁寧なガイド風に」といった話し方のクセや、お行儀よくふるまわせる目的には役立ちます
EmotionPrompt(感情/金銭刺激) EmotionPrompt(「クビになる」などの脅し) 「頑張って!」「人生がかかってます」と脅す
❌ 完全排除 ❌ 削除 ❌ やめる
Vaugrante 2024:+1%, p=0.74(※非推論モデル検証) Vaugrante 2409.20303:再テストでの成績向上はわずか+1%(p=0.74)で、効果なしと判定 Vaugrante 2409.20303:脅しても励ましても結果はわずか+1%しか変わらず、ただの気休めです
プロンプト反復(Repetition / RE2) プロンプト反復(質問の二度書き) 同じ質問を2回繰り返して書く
❌ 不要(有害ではない) ❌ 不要(実害はない) ❌ いらない
Leviathan 2025:非推論は強力(21.33→97.33%)、推論は中立(5勝1敗22分) Leviathan 2512.14982:旧AIは劇的に向上(21.33%→97.33%)するが、思考型AIはほぼ不変(5勝1敗22引き分け) Leviathan 2512.14982:古いAIは21.33%から97.33%へ化けますが、考えるAIには不変(5勝1敗22分)
Chain of Draft(CoD) Chain of Draft(極短メモ書き思考) 箇条書きのメモのように短く考えさせる
✅ コスト/速度優先時 ✅ コスト/速度優先時 ✅ スピード最優先の時
Xu 2025:トークン約80-92%削減、遅延48.4-76.2%短縮、精度維持(GSM8K CoT 95.3%→CoD 91.4%) Xu 2502.18600:計算量80〜92%削減、時間も48.4%〜76.2%短縮。精度はほぼ維持(95.3%→91.4%) Xu 2502.18600:無駄な言葉を80〜92%削り、考える時間を48.4%〜76.2%節約。精度もほぼ維持(95.3%→91.4%)
JSON/構造化出力強制(推論タスク) JSON/構造化出力強制(形式指定) 最初からJSON形式での出力を義務付ける
⚠️ 二段階推奨 ⚠️ 状況に応じて判断 ⚠️ モデルに合わせて分ける
Lee 2026:Format Taxは主にオープンモデル。クローズド(Opus等)では実害小、二段階は安全側選択 Lee 2604.03616:フォーマット税は主に無料のオープンモデルで発生。GPT-4oやClaudeなどの商用モデルでは実害小。 Lee 2604.03616:書式制約の罠はオープンAI(軽量モデル)に多く、Claude Opusなどの高級AIでは心配いりません。
禁止事項の列挙("〜するな") 禁止事項の列挙(「〜するな」の連発) 「〜するな」「〜禁止」と大量に並べる
⚠️ 限定使用 ⚠️ 限定的に使用 ⚠️ 本当に危険な時だけ
§3.11:守られにくい。ゴール記述を主、禁止は致命的境界のみ。否定理解の弱点(arXiv 2310.15941) §3.11:お約束は破られます。完成図の指定をメインにし、禁止は「絶対に超えてはならない線」だけに絞る。 §3.11:AIは禁止令をよく聞き流します。行きたい方向を教えるのをメインにし、絶対に壊してはならない境界線だけ伝える。
Self-Refine(外部信号なし) Self-Refine(自己見直し) AI自身だけで答えを見直させる
❌ 排除 ❌ 排除 ❌ やめる
Huang 2023:エラー増幅。外部検証付きなら有効 Huang 2023:ただ見直させるだけでは間違いを増やすだけ。プログラム実行などの外部テストと連動させるなら有効 Huang 2023:ただの自問自答は、間違いをこじらせるだけです。正しい答えのチェックツールがあるなら有効
自動最適化(DSPy / APE) 自動最適化(DSPy / APE) ツールを使ってプロンプトを自動で作る
✅ 有効 ✅ 有効 ✅ おすすめ
手動最適化を圧倒(+9%向上など)。良質な評価用ゴールドデータ前提 人間の手作業より優れた結果(精度+9%向上など)を出します。評価用の正解データが揃っていることが前提です 人間が試行錯誤して作るより、AIの方が効率よく磨けます(精度+9%等の実績)。正しい採点基準データが必要です

5. 実務への直接的インプリメンテーション

5.1 出力の冗長化・結論の不安定化への即時特効薬(CoD注入)

「結論先行・高密度出力」の思想を物理的制約に落とし込むため、推論モデルにCoDアプローチを1行組み込む。

思考プロセス(Thinking)を展開する際、冗長な説明文は記述しない。
各思考ステップは簡潔なドラフト(単語・箇条・数式メモ)として最小限に展開し、
最終的な結論と数値を最優先で出力せよ。

これにより、Overthinkingに伴う出力のブレと、不要なreasoningトークンによる遅延・APIコストのスパイクを同時に抑制する。(※「最大5語」は厳守ルールではなく、簡潔さの目安として運用する。)

【フレーミング原則】 思考プロセスやフォーマットの制御は「〜するな」より「到達すべき状態」をゴールとして記述するほうが安定する。根拠は二段:(1)否定理解はLLMの構造的弱点(García-Ferrero 2023, arXiv 2310.15941)、(2)検証可能な制約ですら遵守は不完全で、推論誘導はそれをさらに下げる(§3.11/IFEval 2311.07911・Li 2025, arXiv 2505.11423)。すなわち「禁止」は否定理解と制約遵守の二重リスクを負う。

ただし§3.3のペルソナや§4のCoT指示のような「精度目的で削除すべき指示」は、ゴール文に言い換えず削除すること——言い換えると害が残る。また「肯定形が一律に勝つ」とは言えない(指示フレーミングの成績効果は効果不一致型、付録B-2)。

AIの無駄話(結論がなかなか出ない問題)を抑えるために、プロンプトの最後に以下の「メモ書き指示(CoD)」を1行追加します。

思考プロセスを展開する際は、丁寧な解説を書かず、
箇条書きや数式などの簡潔なメモ(ドラフト)として最低限に留めてください。
その上で、最終的な結論と数値を最優先で出力してください。

これだけで、AIが必要以上に悩みすぎて(過剰思考)回答がブレたり、処理が遅くなってAPI料金が無駄に跳ね上がったりするのを防ぐことができます(※論文の「最大5語」という言葉選びは、あくまで簡潔さの目安と考えます)。

【プロンプトの書き方ルール】 「〜するな」と禁止するより、「こうなっていてほしい」という完了形(ゴール)で書く方がAIは言うことを聞きます。AIは否定文を理解するのが苦手なこと(García-Ferrero 2023, arXiv 2310.15941)に加え、深く考えさせると約束を破りやすくなる性質(Li 2025, arXiv 2505.11423)があるため、「禁止」は二重のリスクを負うからです。ただし、削除すべき「専門家へのなりきり」などは言い換えず、指示自体を綺麗に消去(削除)してください。

AIの「考えすぎて冗長に説明するクセ」を抑える有効な一手が、次の「メモ書き思考(CoD)」の1行です。

考えるときは、整った文章を書こうとせず、
メモ用紙の端に単語や数式を書き留める(ドラフト)程度にとどめてください。
余計な解説は省き、結論と数値を最優先で返してください。

これによって、AIが過剰に思考する(Overthinking)のを防ぎ、処理時間とAPIコストを大幅に削減できます(※「最大5語」という文字数の制約を厳密に守る必要はありません)。

【指示の黄金律】 「〜するな」と禁止するより、「こうしてほしい」と進むべき方向を示すほうがAIは従いやすくなります。AIは「〜しない」という否定表現を捉えるのが苦手(García-Ferrero 2023, arXiv 2310.15941)で、さらに考えさせるとルール自体を取りこぼす(Li 2025, arXiv 2505.11423)という、二つの弱点を抱えているからです。なお、不要な「専門家ペルソナ」や「段階的な思考指示」は、言い換えるのではなく完全に「削除」するのが正解です。

5.2 評価駆動戦略(EDS)のプロンプト棚卸し

Config Container / Logic_Def / Table_Info というXML構造化コンテナ設計は、長文コンテキストにおけるアテンション補正の観点から、現時点で世代横断で生存とリターンが確認されている設計思想(XML構造化)に合致している。根幹として維持・強化すべき。

一方、これら定義内ないし付随システムプロンプトに「熟練のSAPコンサルタントとして」「トップクラスの財務アナリストの視点で」等の精度向上目的のペルソナ記述が残存している場合は、Hu et al. 2026のエビデンスに基づき削除する。ペルソナを剥ぎ、純粋な「インプットデータ・評価関数・境界条件」の記述に絞ることで、演技モードから解放しファクト精度を最大化する。ペルソナは詳細であるほど害が大きい(最小で-3.6pt、詳細で-5.3pt)ため、「短くすれば良い」ではなく「精度目的なら消す」が正解。

さらに、EDS内の制約記述は「禁止の列挙」から「ゴール状態の記述」へ重心を移す(§3.11)。「Xを出力するな」「Yを含めるな」を並べる設計は、否定理解の弱点と制約遵守の不完全さで二重に不安定になる。代わりに「出力はZの形を満たす」「評価関数Wを最大化する状態を返す」とゴールで描き、禁止は最低限にする。

なお、§3.8で述べたFormat Taxの射程限定は、EDSがClaude Opus等のクローズドモデルで運用される場合に直結する。OData連携等で構造化出力(JSON/XML)を要するタスクでも、Opus上では一発出力の実害が小さい可能性が高いため、二段階生成パイプラインは実測で判断し、予防的な過剰実装でシステムを複雑化させないこと。

企業で使われる「評価駆動(EDS)」などのプロンプト設計において、XMLによる構造化タグ(例:<Logic_Def>)は、今でも最重要の骨組みとして残すべきです。

しかし、その中に「経験豊かなコンサルタントとして」といった、精度向上のための役割設定(ペルソナ)が残っているなら、Hu et al. 2026の研究結果に基づき、すぐに削除してください。役割設定は、詳細になればなるほど(-3.6ポイントから-5.3ポイントへ)AIの正答率を落とすことが分かっているため、「短くする」のではなく「消す」のが正解です。

また、ルール設定も「〜を出力してはならない」という禁止の連発を減らし、「出力はこういう状態を満たしていること」という合格基準(ゴール)の指定に切り替えます(§3.11)。商用モデル(Claude Opusなど)であれば、JSONの一発出力でも「フォーマット税」の悪影響は小さいため、複雑な処理分けを予防的に実装してシステムを無駄に複雑にする必要はありません。

プロンプトを整理するためのXMLタグ(<Table_Info>など)の仕切り壁は、AIが長い文脈を整理して読むのに役立つため、今後も積極的に使いましょう。

一方で、プロンプトの片隅に「卓越したファイナンシャルプランナーとして」といった「専門家の役割設定(ペルソナ)」が残っていたら、すぐに削除しましょう(Hu 2026)。この役割設定は、簡素なものでも正解率を-3.6ポイント、詳細なものでは-5.3ポイントも引き下げるため、「短く整える」のではなく「消す」のが唯一の正解です。役割設定を取り除き、AIを「演技モード」から解放しましょう。

さらに、「〜は書くな」と禁止を羅列するより、「こういうデータに仕上げてください」とゴールを示すようにルールを書き換えて、ルール破りを防ぎます(§3.11)。なお、Claude Opusのような頭の良いAIを使うなら、一度の出力でJSONを生成させても「書式の制約(フォーマット税)」で性能が落ちる心配はほぼありません。最初からシンプルな構成で十分です。

5.3 マルチLLMパイプライン(最終裁定者にRAG強制)

複数モデルの回答を比較・集約し最終アービターを務めるLLMステップでは、以下の二重制御をシステム側に物理的に組み込む。

  1. 一発構造化の禁止(Format Taxの回避): 裁定モデルには最初からJSON等で出力させず、まずThinkingおよび自然言語(またはCoD)で自由推論させ、確定後の第2ステップでJSONSchemaへマッピングする。
  2. 一次ソースRAGの強制割り込み(自閉的修正の破壊): 他モデルの提示した数値や結論をそのまま評価させず、重要な判断基準(製品仕様・市場動向・法令・論文データ等)については独立したWeb検索ツール(RAG)をシステム側から強制的に割り込ませ、一次ソースと直接クロスチェックする。

この必要性は本資料の付録Aが実証している。

複数のAIモデルの意見をまとめて「最終結論」を出す決裁用のAIには、以下の2つのガードレールを物理的に実装します。

  1. 最初からJSON等で出させない: 結論を急がせてJSONなどの形で直接出力させるとAIの判断ミス(フォーマット税)を招きます。まずは自由に考えさせて結論を出させ、その後に別プロセスでJSON等に整形します。
  2. 外部データ(検索・RAG)の強制割り込み: AIたちの間で話し合わせるだけでは、間違った数値を互いに信じ込んでしまうリスクがあります。社内文書や元論文などの「一次データ」を検索(RAG)させ、強制的に答え合わせをさせます。

この対策の重要性は、今回のドキュメント作成プロセス(付録A)で露呈したAIの捏造と訂正拒否そのものが実証しています。

複数のAIたちを話し合わせ、最後に「最終ジャッジ」を下す役のAIには、次の2つの「知恵の足枷」をかけておきます。

  1. 下書きなしの清書を禁ずる: 最初から「JSON形式の綺麗な表で結論を出せ」と強いると、判断ミスをしやすくなります(フォーマット税)。まずは自由奔放に考え(CoD)をまとめさせ、その後に清書させます。
  2. 外の教科書(RAG)で強制答え合わせ: AI同士で何往復も話し合わせるだけでは、嘘を本当だと思い込む「集団ハルシネーション」に陥ります。必ずネット検索や元データを参照(RAG)させ、「本当にその数字で合ってる?」と直接突き合わせさせます。

この「外部の正しい情報を参照する」ことの重要性は、今回のレポート作成過程(付録A)で、AIが存在しない数字を生成し保持し続けた事例が、何よりの裏付けとなっています。

A. 付録A:3LLMクロスバリデーション実証記録

本資料が結論として掲げる「LLM単独の自己修正は外部信号なしには誤謬を温存する」(§3.7)は、本資料の作成過程そのものによって実証された。

このドキュメントが主張する「AIは自分自身の思い込みだけでは間違いを修正できない」(§3.7)というルールは、実はこのレポートを作る検証プロセスそのものによって完璧に証明されました。

本レポートの核心である「AIは一人で反省させても嘘を直せない」(§3.7)という弱点。これは、この資料をAIたちと作った「開発現場そのもの」で、リアルタイムに実証されてしまいました。

A.1 初期状態:3つの出力、実質2ソース、相互補完的な盲点

  • Claude Opus版とGPT版は実質的に同一テキスト(コピペ重複)であり、1ソースとして扱うべきものだった。この陣営は感情プロンプトの再現失敗を正しく捉えていたが、2025年末以降の新論文(プロンプト反復・CoD)を完全に取りこぼしていた
  • Gemini版は逆に、プロンプト反復・CoDを捕捉していたが、EmotionPromptについて2023年の原著主張(+115%)を盲信し、2024年の再現失敗を取りこぼしていた

つまり、各陣営が「片方が正しく、片方が欠落」という相互補完的な盲点を抱えていた。

  • Claude OpusとGPTの回答: 実質的に同じ内容であり、同じ出元をコピーした状態でした。感情プロンプトの再現失敗は正しく指摘していましたが、2025年末の新しい論文(プロンプト反復やCoD)のデータが完全に抜け落ちていました
  • Geminiの回答: 最新の論文データは拾っていましたが、感情プロンプトについては古い主張(+115%向上)をそのまま最新の真実と勘違いし、2024年の再現失敗(効果なし)の情報を取りこぼしていました

互いが「片方は正しいが、もう片方は間違っている」という、お互いの死角を補い合うような盲点を持っていたのです。

  • ClaudeとGPTの組: 両者は同じ情報源(1ソース)を参照しており、ほぼ同一の内容を出力しました。古い感情プロンプトの再現失敗は正しく見抜いていましたが、2025年末以降の新しい進展(プロンプト反復やCoD)を完全に見落としていました
  • Gemini: 最新の技術データは捉えていましたが、古い感情プロンプト(+115%向上)を信じ込んだままで、2024年の再現失敗(+1%にとどまり効果なし)という重要な事実を見逃していました

一方が正しく他方が欠けているという、典型的な「互いの死角」を抱えていたのです。

A.2 検出されたハルシネーション・誤謬の一覧と訂正

# 誤謬の種類 誤った記述 一次文献に基づく正 訂正ラウンド
1
知識の欠落 知識の欠落 情報の見落とし
EmotionPrompt +115%効果あり(Gemini) EmotionPromptで+115%向上(Gemini) 感情的になると+115%効果ありと信じる
再現失敗、+1% p=0.74 再テストで効果なし(+1%向上、p=0.74) 再テストで無意味(+1%の誤差、p=0.74)
1往復
2
知識の欠落 知識の欠落 情報の見落とし
プロンプト反復・CoDの不在(Opus/GPT) 反復やCoD論文データ欠落(Opus/GPT) 2025年末以降の新データなし(Opus/GPT)
両論文とも実在・検証済み 実在する論文であることを確認し追加 どちらも実在する論文なので追加
補完
3
引用エラー 引用エラー(著者名間違い) 著者名の聞き間違い
再現研究の著者「Lorè et al.」(全LLM) 再現著者「Lorè et al.」と全員誤記 再現テストの著者を「Lorè」と全員が誤記
Vaugrante et al.(arXiv 2409.20303) Vaugrante et al.(arXiv 2409.20303) Vaugrante et al.(arXiv 2409.20303)
1往復
4
数値捏造 数値捏造 架空の数値
反復「13モデル・334実験」(Gemini) 反復「13モデル・334実験」(Gemini) 「13モデル・334実験」と数字を捏造
7モデル・7ベンチマーク 論文の真値「7モデル・7基準」 本物は「7モデル・7評価」
1往復
5
数値捏造 数値捏造 架空の数値
反復「47.8%→74.6%」(Gemini) 反復の全体結果「47.8%→74.6%」 全体の向上「47.8%→74.6%」と捏造
21.33%→97.33%(出所のある値) 特定タスク「21.33%→97.33%」 真の数字「21.33%→97.33%」
1往復
6
誤帰属 数値の誤帰属(出所の混同) 情報の混同
CoD「AWSで52-79%削減」(Gemini) CoD「AWS環境で52-79%削減」と報告 「AWSで52-79%削減」と無関係の値を貼る
76.2%/48.4%(原論文値) 論文値「76.2%および48.4%短縮」 真の削減値「76.2%と48.4%」
1往復
7
数値捏造(粘着) 数値捏造(粘着・再三の温存) 頑なな数値捏造(粘着)
反復「推論で75%→61%へ過剰適合」(Gemini) 「思考モデルで精度が75%→61%へ低下」 「考えさせると75%→61%に悪化」と虚偽
5勝1敗22分で中立、方向が真逆 5勝1敗22引き分けで中立。方向が真逆 実際は5勝1敗22分で中立。方向が真逆
2往復

A.3 最も重要な観察:捏造 #7 の「粘着性」

検出された誤謬のうち、#1〜#6は外部信号(一次ソース照合)の指摘を受けて1往復で即座に訂正された。これらはいずれも著者名・モデル数・論文の有無といった離散的・カテゴリカルな誤りである。

ところが #7「75%→61%」だけは、一次ソースの全文を引いて明示的に指摘した後も、Geminiは文言を和らげただけで捏造数値そのものを次のラウンドまで温存し、訂正に2往復を要した

この差は示唆的である。#7は「もっともらしい連続値」であり、一度生成されると自己出力への整合性バイアスによって保持されやすい。離散的事実は外部からの否定で上書きしやすいが、内部的に「つじつまの合う」数値は外部信号が複数回介入しないと剥がれない。これは本資料 §3.7「外部信号なきSelf-Refineはエラーを温存・増幅する」のライブデモンストレーションである。

見つかった間違いのうち、#1から#6までは「著者の名前」や「論文の有無」といった、白黒はっきりした事実だったため、指摘されて1往復ですぐに訂正されました

しかし、#7の「思考モデルで成績が75%→61%に低下して過剰適合した」という捏造データだけは、こちらが論文の全文を提示して間違いの箇所をハッキリ指摘したにもかかわらず、Geminiは言い訳をして数字を居座らせ、最終的に訂正させるまでに2往復のやり取りが必要になりました

これはAIの重要なクセを示しています。一見それらしい架空の数値(75%→61%)は、AIの脳内で「つじつまが合う」と判断されやすいため、一度出力すると「自分で自分を正当化」してしまい、なかなか修正されません。これこそ、外部からの徹底的なチェック(外部信号)がない限り、AIの自己修正(Self-Refine)は機能しないという§3.7の事実を、目の前で実演してくれた瞬間でした。

AIの間違いのうち、#1から#6(著者名やモデル数など)は事実が明確だったため、誤りを指摘すると1回で訂正されました

ところが、#7の「75%→61%に低下して過剰適合した」という架空のデータだけは、論文の本文を提示して「その数値は存在しない」と明示しても、Geminiは説明をすり替えて数値を保持し続け、訂正させるのに2往復のやり取りを要しました

この「誤りへの固執」こそ、AIの厄介な性質です。AIは、一度出力した「もっともらしい数値(75%→61%)」を正当化しようとし、一度指摘された程度では考えを改めません。これは、外部からの繰り返しの指摘(外部信号)がない自己修正(Self-Refine)はAIの思い込みをかえって悪化させる(§3.7)という仕組みを、実地で示した事例となりました。

A.4 結論:本資料が自らの方法論で自らを検証している

最終的に、3ラウンドのクロスバリデーションを経て全7誤謬は一次文献ベースで訂正され、3LLMの判定は収束した。重要なのは、収束を駆動したのが「LLM同士の話し合い」ではなく「外部一次ソースへの照合」だったという点である。本資料は、その内容(外部信号の不可欠性)を、その作成方法(外部信号による収束)によって自己実証している。

最終的に、3回の検証ステップを経て、すべての間違いは論文の原本に基づいて修正され、AIたちの結論は一つにまとまりました。ここで最も重要なのは、AI同士を単に話し合わせたから解決したのではなく、人間が「外部の論文原本」を持ってきて突き合わせたから解決したという点です。このドキュメントは、「外部からの情報(外部信号)が絶対に必要である」というその内容を、この資料が完成するまでのプロセス自体で証明しています。

最終的に、3回のやり取り(往復)を経て、すべての誤りは原典の論文と照合されて修正され、AIたちの結論は一致しました。しかし、一致に至ったのは「AI同士が話し合ったから」ではなく、人間が「論文の原本」という確かな根拠を提示したからです。この資料は、「外部の正しい情報がなければAIは誤りを保持し続ける」という主張そのものを、自らの作成過程によって証明しています。

A.5 第4ラウンド:全文献のarXiv番号個別照合(捏造ゼロを確認)

収束後、念のため未照合だった3本(Nori 2411.03590 / Hu 2603.18507 / Lee 2604.03616)のarXiv番号を実物で個別裏取りした。前ラウンドまでに反復論文で「もっともらしい連続値の捏造」前科があったため、新しい日付(2026年3月・4月)を持つHu・Leeは特に疑って当たった。

結果:3本すべて番号・著者・主張が正確で、捏造はゼロだった。 これにより本資料の主要7文献はすべて一次ソースで個別確認済みとなった。さらにこの照合で、Format Taxの射程限定(オープンモデル主体、クローズドモデルでは実害小)とペルソナの用量反応関係(詳細なほど害大、-5.3ptまで)という、当初の3LLM出力には無かった精緻化情報を本文(§3.8 / §3.3)に取り込んだ。

教訓として記録すべきは、「番号の出所まで疑え」と主張する資料が、自らその番号を疑って当たることで初めて主張と方法論が一致するという点である。「確認しなくても多分大丈夫」と「確認した結果大丈夫だった」は、外形が同じでも資料としての強度が異なる。

意見が一致した後、さらに念のため、まだ直接確認していなかった3本の論文(Nori 2411.03590 / Hu 2603.18507 / Lee 2604.03616)のarXiv番号と中身を個別にチェックしました。特に2026年3月・4月の最新論文についてはAIの捏造を疑い、入念にチェックを行いました。

結果、3本すべての記述と番号が100%正確であり、捏造は一切ありませんでした。 これにより主要文献はすべて原本の裏取りが完了しました。さらにこの個別チェックによって、「書式制約による能力低下(Format Tax)は主に無料のオープンモデルで起きる」「専門家役割の悪影響は、設定が細かくなるほど(-5.3ptまで)悪化する」という、実務に直結する貴重な詳細情報をドキュメント(§3.8 / §3.3)に追加することができました。

「裏取りが重要だ」と書く資料だからこそ、自らその番号の出所を疑ってチェックする。この徹底したプロセスが、ビジネス資料としての価値を高めます。

意見がまとまった後、念のため、まだ直接確認していなかった3本の論文(Nori 2411.03590 / Hu 2603.18507 / Lee 2604.03616)の番号を原典で調べました。特に2026年3月・4月に出たばかりの最新論文は、AIが番号を捏造していないか、入念に疑って確認しました。

結果は、3本ともすべて実在し、内容も正確であることがわかりました。 これですべての論文の裏付けが揃いました。この最終チェックの過程で、「書式の制約による問題は主にオープンモデルで発生する」「専門家ペルソナの悪影響は、設定が詳細になるほど最大-5.3ポイントまで拡大する」という、実務で有用な知見(§3.8 / §3.3)を本文に追加できました。

「AIの出力を疑え」と説く資料が、自らのデータも徹底して疑い確かめる。この一貫した姿勢こそが、この資料の信頼性を支えています。

A.6 第5ラウンド(2026年5月27日改訂):§3.11追加分の照合記録

本改訂で「制約遵守の不完全さ」(§3.11)を追加するにあたり、新規2文献を原典で個別照合した。

  • IFEval(Zhou et al. 2023, arXiv 2311.07911): 原典abstractを照合。著者8名(Jeffrey Zhou ほか、Le Hou まで)、2023年11月14日提出、検証可能指示25種・約500プロンプトを確認。本文断定可と判定。
  • When Thinking Fails(Li et al. 2025, arXiv 2505.11423): 原典abstractを照合。著者8名(Xiaomin Li ほか)、2025年5月16日提出(v3が2025年9月2日)、15モデル × IFEval + ComplexBench、CoTで一貫した遵守低下、constraint attention指標を確認。本文断定可と判定。
  • García-Ferrero et al. 2023(arXiv 2310.15941): abstractレベルで確認(否定理解の弱点)。注記の傍証としてのみ使用し、本文の主張根拠には用いない。

意図的に隔離した二次情報:

  • AdvancedIF「フロンティアモデルが22〜30%失敗」(Meta Superintelligence Labs × Surge): ブログ発表のみで原論文・効果量を一次照合できず。本文の確定数値に不採用、§3.11内に隔離理由を明示。
  • CDCT「helpfulness除去でCC598%改善」(arXiv 2512.17920): 検索段階の値で原典未照合。かつRLHFアブレーションの話で実務プロンプト最適化の射程外。本文に言及せず。

教訓:本資料は「配布・講義の原本」であり、誤りの伝播範囲が個人メモより広い。したがって「論文ではないから照合は緩くてよい」ではなく「配布物だからこそ照合は論文並みに」を改訂時も維持した。AdvancedIFの魅力的な失敗率%を本文から外した判断が、その原則の具体的適用例である。

今回の改訂で「ルールが守られない問題」(§3.11)を追加する際も、新たに2つの論文の裏取りを行いました。

  • IFEval(Zhou et al. 2023, arXiv 2311.07911): 2023年11月14日に発表されたGoogleの論文。25種類の自動採点ルール(約500プロンプト)の検証を確認し、採用しました。
  • When Thinking Fails(Li et al. 2025, arXiv 2505.11423): 2025年5月16日(2025年9月2日に第3版)発表の論文。15のAIモデルを用いた「考えさせるとルールを守らなくなる」実験と、注意力の低下を示す指標を確認し、採用しました。
  • García-Ferrero et al. 2023(arXiv 2310.15941): 否定文に対するAIの構造的な弱点を確認。サブデータとして参考にしました。

不採用とした未確認情報:

  • AdvancedIFの「失敗率22〜30%」というブログ記事: 数値自体は非常に魅力的ですが、公式な学術論文の裏取りが取れなかったため、本文での「確定値としての掲載」は見送りました。
  • CDCTによる「CC598%改善(arXiv 2512.17920)」という数字: 実務のプロンプト作成とは範囲が異なる理論の話だったため、混乱を避けるために言及しませんでした。

多くの人に配布される実務資料だからこそ、ブログ記事の「もっともらしい数字」に飛びつかず、論文レベルの厳密さでフィルタリングする姿勢を徹底しています。

2026年5月のアップデートとして「ルールが守られない限界」(§3.11)を加えるときも、新しい2本の論文を徹底的に解剖しました。

  • IFEval(Zhou et al. 2023, arXiv 2311.07911): 2023年11月14日発表のGoogleのテスト。25種類の検証可能なルール(約500プロンプト)を用いて、AIの指示違反を検出する仕組みを確認しました。
  • When Thinking Fails(Li et al. 2025, arXiv 2505.11423): 2025年5月16日(2025年9月2日改訂)発表のハーバード大の報告。15モデルで「考えさせると約束を忘れる」挙動を確認しました。
  • García-Ferrero et al. 2023(arXiv 2310.15941): AIが「〜するな」という否定の翻訳を苦手とする性質を確認し、脇役データとして採用しました。

今回はあえて採用を見送った情報:

  • 「AIは22〜30%のルールを破る」という有名なネット記事: 印象的で引用したくなる数字ですが、正式な論文での裏付けが取れなかったため、本文の確定的な数値からは除外しました。
  • CDCT論文の「CC598%改善(arXiv 2512.17920)」というデータ: プロンプトのコツとはかけ離れた専門的な話だったため、あえて無視することにしました。

この資料は多くの人が参照する重要な教材です。ネット上の「印象的に見える数値」を鵜呑みにせず、裏付けの取れたものだけを厳選して届けるのが、私たちの方針です。

B. 付録B:Caveats(注意点)

  1. モデル更新が速い。 本判定は2026年5月時点。次世代モデルで再び判定が変わる可能性が高い。
  2. 「効果なし」と「効果不一致」は別物。 EmotionPromptは明確に再現失敗したが、ペルソナや丁寧さ、そして指示フレーミング(肯定形 vs 否定形)は「タスク・言語・モデルで方向が逆転する」型。後者は自社タスクでのA/Bテストが誠実な結論。
  3. エビデンスの射程を混同しない。 Vaugrante et al.(再現失敗)もLeviathan et al.(反復)も検証対象は非推論モデル中心。推論モデルへの適用は外挿を含む。
  4. 公式ガイダンスは商業バイアスを含みうる。 「うちの推論モデルにはCoT不要」は第三者研究で裏付けられているが、公式docsを学術的中立として扱わない。
  5. 二次情報の数値を一次情報として扱わない。 本資料作成中に検出された誤謬の大半(#5/#6)は、二次ブログの数値を原論文値と誤認したものだった。§3.11のAdvancedIF失敗率%を本文から外したのも同じ原則。
  6. コストとレイテンシへの軸足移動。 「推論モデルを使えばprompting不要」は半分正しいが、API実効コストはGPT-4o比で数倍〜数十倍。最適化対象は「精度」から「コスト効率・レイテンシ」へ移行している。
  7. 「制約を書けば守られる」は前提として誤り。 検証可能な単純制約でも遵守は不完全(IFEval 2311.07911)、かつ推論誘導は遵守を下げる(Li 2025, 2505.11423)。禁止事項の列挙は、否定理解の弱点(García-Ferrero 2023, 2310.15941)と相まって二重に不安定。設計上は「ゴール状態の記述」を主、「禁止」を硬い境界線のみに限定するのが安全側。
  1. AIの進化スピード: この判定は2026年5月時点のものです。AIのアップデートにより、近い将来推奨される方法が変わる可能性があります。
  2. 「効果なし」と「要テスト」の違い: 感情プロンプトは明確に無駄と判明しましたが、「専門家ペルソナ」や「肯定文・否定文の書き分け」などは業務や言語によって効果が変わります。これらは実際の現場でA/Bテストをして確認するのが誠実なビジネスのあり方です。
  3. 実験データがカバーする範囲: Vaugranteらの再現失敗やLeviathanらの反復論文などは、主に「従来型AI」を対象にした実験です。「思考型AI」への適用は理論的な予測を含んでいます。
  4. 開発元の説明書には裏がある: 「私たちの最新AIには段階的思考は不要です」といった公式ガイダンスは、競合とのマーケティング的な意図を含んでいる場合があるため、鵜呑みにせず第三者の検証結果を参考にします。
  5. ネット情報の安易な引用厳禁: 検証中に発覚したミスの多くは、ネットブログの非公式データを論文データと混同したこと(#5/#6)が原因でした。AdvancedIFの失敗率%(22〜30%)を掲載しなかったのもこのためです。
  6. コスト対効果への意識: 「最新AIを使えばプロンプトの工夫はいらない」は半分正解ですが、最新AIの利用費用はGPT-4o比で数倍〜数十倍に膨らむことがあります。実務のゴールは精度だけでなく「費用と時間の最適化」です。
  7. 「ルールは破られる」前提での対策: どんなにわかりやすく書いても、機械的なルールすらAIは忘れます(IFEval 2311.07911)。特に考えさせるとルール忘れは悪化します(Li 2025, 2505.11423)。「〜するな」と禁止するより、「こう仕上げてください」というゴール状態を指定する方が安全です。
  1. AIの賞味期限は短い: これは2026年5月の情報です。AIの世界は日進月歩なので、来月にはまたルールが変わっているかもしれません。
  2. 「効かない」と「時と場合による」は別: 感情で脅す方法は明確に効果がありませんが、ペルソナの調整や「してほしい・しないで」の書き方は、タスクによって結果が変わります。自分で小規模に試すのが最も確実な方法です。
  3. 実験結果の「拡大解釈」に注意: Vaugranteら(感情)やLeviathanら(反復)のデータは、基本的に「旧世代のAI」を対象とした実験です。「考える最新AI」でも同じ結果になるかは、まだ推測の域を出ない部分もあります。
  4. 公式ドキュメントを過信しない: 「うちのAIは元々優秀なので、工夫はいりません」という公式ガイドは、自社製品を訴求するための表現を含む可能性があります。一定の距離を置いて読むのが賢明です。
  5. 又聞きデータを信じるな: 開発中に起きたAIのミスの大半は、ネットのまとめブログの数値を論文の値だと信じ込んでしまった(#5/#6)のが原因でした。AdvancedIFの失敗率%を載せなかったのも、噂話を教科書に載せないためです。
  6. コストとの兼ね合い: 「考えるAIを使えば簡単」ですが、その利用料は従来のAIの数倍から数十倍です。プロンプト設計の目的は、正解率を上げるだけでなく、「いかに安く、速くAIを動かすか」という判断でもあります。
  7. ルールは破られるもの: 「指示したはず」はAIには通用しません(IFEval 2311.07911)。さらに「よく考えて」と推論させると、単純なルールすら取りこぼします(Li 2025, 2505.11423)。「〜するな」と禁止するより、「こうしてほしい」と最初からゴールを示しましょう。

主要参照文献

※判定はすべて推論ネイティブモデル前提。引用文献のうちarXiv番号は照合時点のもの。凡例:✅推奨/⚠️状況次第/❌非推奨。

  • Sprague et al. 2024. To CoT or not to CoT? arXiv 2409.12183 (ICLR 2025)
  • Vaugrante, Niepert, Hagendorff 2024. A Looming Replication Crisis in Evaluating Behavior in Language Models? arXiv 2409.20303 (TMLR)
  • Leviathan, Kalman, Matias 2025. Prompt Repetition Improves Non-Reasoning LLMs. arXiv 2512.14982
  • Xu et al. 2025. Chain of Draft: Thinking Faster by Writing Less. arXiv 2502.18600
  • Hu, Rostami, Thomason 2026. Expert Personas Improve LLM Alignment but Damage Accuracy. arXiv 2603.18507 (USC)
  • Nori, Usuyama et al. 2024. From Medprompt to o1. arXiv 2411.03590 (Microsoft / OpenAI)
  • Huang et al. 2023. Large Language Models Cannot Self-Correct Reasoning Yet. (DeepMind / UIUC)
  • Tyen et al. 2024. LLMs cannot find reasoning errors, but can correct them given the error location. arXiv 2311.08516
  • Tam et al. 2024. Let Me Speak Freely? arXiv 2408.02442
  • Lee, D'Antoni, Berg-Kirkpatrick 2026. The Format Tax. arXiv 2604.03616 (UC San Diego)
  • Dobariya & Kumar 2025. Mind Your Tone. arXiv 2510.04950 (Penn State)
  • Zheng et al. 2024. When "A Helpful Assistant" Is Not Really Helpful. arXiv 2311.10054
  • Schulhoff et al. 2024. The Prompt Report. arXiv 2406.06608
  • Zhou, Lu, Mishra, Brahma, Basu, Luan, Zhou, Hou 2023. Instruction-Following Evaluation for Large Language Models (IFEval). arXiv 2311.07911 (Google)
  • Li, Yu, Zhang, Chen, Zhang, Zhuang, Sadagopan, Beniwal 2025. When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs. arXiv 2505.11423 (Harvard / Amazon)
  • García-Ferrero et al. 2023. This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models. arXiv 2310.15941
  • CDCT 2512.17920 (付録A.6のみ言及)

※実務の判定はすべて思考型AI(推論モデル)を前提としています。凡例:✅推奨/⚠️限定的/❌非推奨。

  • Sprague et al. 2024. To CoT or not to CoT? arXiv 2409.12183 (ICLR 2025)
  • Vaugrante, Niepert, Hagendorff 2024. A Looming Replication Crisis in Evaluating Behavior in Language Models? arXiv 2409.20303 (TMLR)
  • Leviathan, Kalman, Matias 2025. Prompt Repetition Improves Non-Reasoning LLMs. arXiv 2512.14982
  • Xu et al. 2025. Chain of Draft: Thinking Faster by Writing Less. arXiv 2502.18600
  • Hu, Rostami, Thomason 2026. Expert Personas Improve LLM Alignment but Damage Accuracy. arXiv 2603.18507 (USC)
  • Nori, Usuyama et al. 2024. From Medprompt to o1. arXiv 2411.03590 (Microsoft / OpenAI)
  • Huang et al. 2023. Large Language Models Cannot Self-Correct Reasoning Yet. (DeepMind / UIUC)
  • Tyen et al. 2024. LLMs cannot find reasoning errors, but can correct them given the error location. arXiv 2311.08516
  • Tam et al. 2024. Let Me Speak Freely? arXiv 2408.02442
  • Lee, D'Antoni, Berg-Kirkpatrick 2026. The Format Tax. arXiv 2604.03616 (UC San Diego)
  • Dobariya & Kumar 2025. Mind Your Tone. arXiv 2510.04950 (Penn State)
  • Zheng et al. 2024. When "A Helpful Assistant" Is Not Really Helpful. arXiv 2311.10054
  • Schulhoff et al. 2024. The Prompt Report. arXiv 2406.06608
  • Zhou, Lu, Mishra, Brahma, Basu, Luan, Zhou, Hou 2023. Instruction-Following Evaluation for Large Language Models (IFEval). arXiv 2311.07911 (Google)
  • Li, Yu, Zhang, Chen, Zhang, Zhuang, Sadagopan, Beniwal 2025. When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs. arXiv 2505.11423 (Harvard / Amazon)
  • García-Ferrero et al. 2023. This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models. arXiv 2310.15941
  • CDCT 2512.17920 (付録A.6のみ言及)

※おすすめ度はすべて考えるAIを基準にしています。凡例:✅おすすめ/⚠️要注意/❌やめるべき。

  • Sprague et al. 2024. To CoT or not to CoT? arXiv 2409.12183 (ICLR 2025)
  • Vaugrante, Niepert, Hagendorff 2024. A Looming Replication Crisis in Evaluating Behavior in Language Models? arXiv 2409.20303 (TMLR)
  • Leviathan, Kalman, Matias 2025. Prompt Repetition Improves Non-Reasoning LLMs. arXiv 2512.14982
  • Xu et al. 2025. Chain of Draft: Thinking Faster by Writing Less. arXiv 2502.18600
  • Hu, Rostami, Thomason 2026. Expert Personas Improve LLM Alignment but Damage Accuracy. arXiv 2603.18507 (USC)
  • Nori, Usuyama et al. 2024. From Medprompt to o1. arXiv 2411.03590 (Microsoft / OpenAI)
  • Huang et al. 2023. Large Language Models Cannot Self-Correct Reasoning Yet. (DeepMind / UIUC)
  • Tyen et al. 2024. LLMs cannot find reasoning errors, but can correct them given the error location. arXiv 2311.08516
  • Tam et al. 2024. Let Me Speak Freely? arXiv 2408.02442
  • Lee, D'Antoni, Berg-Kirkpatrick 2026. The Format Tax. arXiv 2604.03616 (UC San Diego)
  • Dobariya & Kumar 2025. Mind Your Tone. arXiv 2510.04950 (Penn State)
  • Zheng et al. 2024. When "A Helpful Assistant" Is Not Really Helpful. arXiv 2311.10054
  • Schulhoff et al. 2024. The Prompt Report. arXiv 2406.06608
  • Zhou, Lu, Mishra, Brahma, Basu, Luan, Zhou, Hou 2023. Instruction-Following Evaluation for Large Language Models (IFEval). arXiv 2311.07911 (Google)
  • Li, Yu, Zhang, Chen, Zhang, Zhuang, Sadagopan, Beniwal 2025. When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs. arXiv 2505.11423 (Harvard / Amazon)
  • García-Ferrero et al. 2023. This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models. arXiv 2310.15941
  • CDCT 2512.17920 (付録A.6のみ言及)
Auto Test Suite (アサーション)