小さな AI モデルは、非常に古いゲームから驚くべき強化を受けました。
MIT の研究者は、戦艦スタイルのセットアップを使用して、AI エージェントが行動を起こす前に情報収集方法を改善できるかどうかをテストしました。その結果、小規模システムのパフォーマンスが大幅に向上しました。その中には、研究者がボードの検索方法を変更した結果、人間を破ってからほとんどのゲームで勝利するまでになったモデルも含まれています。
この変更は、今日の AI エージェントの最大の弱点の 1 つに直接対処します。彼らは多くの場合、答えがまだ持っていない詳細に依存するタスクを処理するように求められます。 MIT の研究では、質問の設計を改善すると、安価なモデルの機能が大幅に向上する可能性があることが示唆されています。
どれだけ賢くなるか
MIT テストでは、自然言語の問題を中心に構築されたバージョンの Battleship が使用されました。 1 人の AI エージェントは隠された船を見つけようとする乗組員の役割を果たし、もう 1 人はボードにアクセスして応答しました。

最大の飛躍はラマ 4 スカウトから来ました。 MITによると、この小型モデルは当初、ゲームのわずか8%で人間のプレイヤーに勝ったという。研究者らがより有向推論戦略を追加したところ、約 1% のコストで実行しながら、82% の確率で人間を上回り、より大規模なフロンティア モデルを上回るパフォーマンスを達成しました。
AI のコストを気にする場合、これは注目すべき数字です。モデルは増加しませんでしたが、より鋭い質問を選択し、それぞれの回答をより効果的に活用することで増加しました。
Battleship が AI の学習に役立つ理由
この戦艦は、AI エージェントに限られた情報での運用を強制するため、テストとして機能します。ボード全体を見ることができないため、各質問で検索を絞り込み、次の手を定義する必要があります。
これは実用的な AI ツールにきちんと対応しています。サポート ボット、リサーチ アシスタント、または計画エージェントは、多くの場合、支援する前にフォローアップをリクエストする必要があります。このプロセスが失敗すると、モデルが重要な詳細を見逃したり、同じことを繰り返したり、推奨が早すぎたりする可能性があります。

MIT のアプローチは、この弱点に圧力をかけます。これは、エージェントが回答を生成する前に正しい情報を収集できるかどうかを測定します。
次はどこへ行けるでしょうか?
より難しいテストは、同じアプローチがゲーム以外でも機能するかどうかです。 Battleship は制御されているため、検索、カスタマー サポート、または職場のソフトウェアにおけるオープン エージェント ワークフローよりも簡単にスコアを獲得できます。
それでも、その方向性は注目に値する。小規模なモデルが、行動する前に鋭い質問をすることを学習すれば、企業は日常使用でより有能だと感じられる安価な AI ツールを構築できるようになります。
次のマイルストーンは、ゲームボードから実際の仕事に移行することです。指示が不明確で、ファイルが不足しており、ユーザーが急いでいるタスクは、解決するのがはるかに困難になります。