English

alt

導入:なぜ「2回繰り返す」だけで精度が上がるのか

生成AIの精度を高めたいと考えると、多くの場合は複雑なプロンプト設計や高度な推論テクニックに目が向きがちです。しかし近年、「同じプロンプトをそのまま2回入力するだけ」という極めて単純な方法で、AIの正答率が向上するという研究結果が報告されました。

一見すると拍子抜けするほど単純な方法ですが、これは偶然ではなく、LLM(大規模言語モデル)の構造的な特性に基づいた現象です。本記事では、公開されている研究情報をもとに、その仕組みと実用面での意味を整理します。


プロンプト反復(Prompt Repetition)とは

プロンプト反復とは、同一の指示文や質問文を、そのまま連続して2回入力する手法です。内容を言い換えたり補足したりする必要はありません。

例(概念的な表現)

  • 質問文+条件
  • 質問文+条件

このように完全に同じテキストを繰り返すだけで、モデルの回答精度が変化することが確認されています。


なぜ繰り返すと正答率が上がるのか

因果言語モデルの構造的特性

現在主流のLLMの多くは、**因果言語モデル(Causal Language Model)**と呼ばれる構造を採用しています。これはテキストを左から右へ順番に処理し、後ろのトークンは前のトークンに依存しますが、その逆はできないという性質を持っています。

このため、プロンプトの前半で与えた重要な条件や文脈が、後半の判断時に十分に参照されないケースが生じます。

2回目の入力が果たす役割

同じプロンプトを2回入力すると、2回目のプロンプトを処理する時点では、1回目の全文がすでに文脈として存在している状態になります。
その結果、

  • 条件や選択肢を再認識しやすくなる
  • 文脈の取りこぼしが減る
  • 質問全体を俯瞰した判断がしやすくなる

といった効果が生まれ、統計的に正答率が改善すると考えられています。


Google Researchによる研究結果の概要

2025年12月に公開されたGoogle Researchの論文では、以下のような条件で検証が行われました。

  • 対象モデル

    • Gemini 2.0 Flash / Flash Lite
    • GPT-4o / GPT-4o-mini
    • Claude 3 Haiku / Claude 3.7 Sonnet
    • DeepSeek V3
  • 評価内容

    • 約70種類のベンチマークタスクを比較
    • 通常プロンプト vs プロンプト反復

その結果、

  • 47のタスクで有意な性能向上
  • 精度が低下したタスクは確認されなかった

と報告されています。
特定の情報検索タスクでは、正答率が20%台から90%台に大きく改善した例も示されていますが、これはあくまで条件が合致したケースであり、全用途で同等の効果が出るわけではありません。


効果が出やすいタスクの傾向

研究および解説記事から整理すると、効果が出やすいのは次のようなケースです。

非推論系タスク

  • 情報抽出
  • 分類
  • 選択肢からの正解選択
  • 条件に合う要素の特定

文脈が長い・条件が多い入力

  • 質問文と条件が離れている場合
  • 選択肢や制約が多い場合

一方で、「段階的に考えさせる」ような推論タスクでは、モデル内部ですでに反復的な処理が行われるため、外部からのプロンプト反復による効果は限定的になる可能性があります。


実用上の注意点

トークン数とコストの増加

プロンプトを2回入力するため、入力トークン数は単純に倍になります。API利用時にはコスト増加につながるため、

  • 精度向上が本当に必要な場面か
  • バッチ処理や重要タスクに限定できないか

といった判断が重要です。

万能手法ではない

プロンプト反復は、すべての問題を解決する魔法の手法ではありません。
タスクの性質やモデルの種類によって効果の大きさは変わるため、実運用では小規模な検証を行ったうえで導入することが望まれます。


まとめ

  • 同一プロンプトを2回繰り返すだけで、LLMの正答率が向上するケースがある
  • 背景には因果言語モデルの構造的特性がある
  • 非推論系・文脈依存タスクで特に効果が出やすい
  • トークン増加によるコストには注意が必要

複雑な設計を行う前に、まずは「同じプロンプトを2回並べる」という極めて低コストな工夫を試してみる価値は十分にあります。研究結果を踏まえつつ、用途に応じた現実的な使い分けが重要と言えるでしょう。

関連記事