ロードアイランド州プロビデンス — コンピューター科学者のルイス・カストリカート氏は、大規模言語モデル (ChatGPT や Claude などのチャットボットの背後にある人工知能テクノロジー) を研究して 8 年目だったとき、行き詰まりを感じ始めました。
「私たちは基本的に、真の基礎的なLLM研究の段階を過ぎています」とカストリカート氏は語った。 「あとはアプリケーションだけです。」
研究者はブラウン大学での学業を辞め、オーバーワールドという新しい会社を設立した。彼女の野心は、言葉だけでなく世界を理解し、ナビゲートできる人工知能という名前に込められています。
AI チャットボットから得られる収益はまだたくさんあります。投資家は、Anthropic や OpenAI などの大手開発者に数兆ドルを投じており、AI チャットボットに期待しています。しかし、ますます多くの AI 起業家が次のフロンティアと考えるもの、つまり AI システム、場合によってはロボットに物理環境での対応方法を教える「ワールド モデル」に専念するようになっています。
彼らには、「AI の名付け親」フェイフェイ・リーなど、この分野で最も著名な科学者も含まれており、彼は世界モデルの概念を「今日の AI において最も重要で意味のある用語の 1 つ」と説明しています。
グローバル モデリング研究の中心にあるのは、人工知能が本を読むことしかできないのでは真の知能とは言えないという考えです。部屋も読む必要があります。
「言語モデルがテキストの統計的構造を研究するのに対し、世界モデルは空間と時間の統計的構造を研究する。光が表面にどのように当たるか、これまでカメラが捉えたことのない角度から庭がどのように見えるか、物体が力にどのように反応し、物理法則に従うか」と、サンフランシスコの新興企業ワールド・ラボの創設者リー氏は今月掲載された記事で述べた。
もう一人の支持者は、AIのパイオニアであるヤン・ラション氏だ。彼は昨年メタ社のチーフAIサイエンティストの職を辞し、パリに拠点を置くAdvanced Machine Intelligence Labsを設立した。
「グローバルモデルは急速にバズワードになりつつある」とLaKun氏はポッドキャスト「教師なし学習」で語った。同氏は、これをAIエージェントが「自身の行動の結果を予測」できるようにするものだと考えていると述べた。
世界モデルを定義するには多くの方法があり、多くの場合、それを使用して構築したいテクノロジー (ロボットであれ、よりインタラクティブなビデオ ゲームであれ) に基づいています。
AI 言語をモデルとして、人類の書籍、ニュース記事、ビジュアル メディアのすべてをトレーニングすることで、オフィスベースの仕事や一部のクリエイティブな分野の性質を変える AI アシスタントが誕生しました。しかし、一部の支持者は、次の単語やピクセルを繰り返し予測して新しい対話、画像、またはコード行を生成することで機能する生成 AI モデルには限界があると考えています。
カーネギーメロン大学コンピューターサイエンス学部長マーティン・ヘバート氏は、チャットボットはコーヒーを受け取ることができないと指摘する。
「世界のあらゆる幾何学模様、私の手の動かし方のダイナミクス、カップとの接触による物理的な相互作用があります」とエベール氏は語った。 「文中の次の単語を単に予測するよりもはるかに複雑です。」
ロボット工学の研究に 40 年以上を費やしてきたエベールのような科学者にとって、ワールド モデルの最も有用な応用は、テクノロジー業界のもう 1 つの流行語である「物理 AI」をより速く、より安価に実現する方法です。
「異なる定義を持つ人もいますが、物理的で身体化された人工知能は、私たちがかつてロボット工学と呼んでいたものの進化のようなものです」とエベール氏はインタビューで語った。チャットボットを非常に便利にしたAIの進歩の一部は、周囲を十分に広く認識してロボットの脳のように機能するAIの構築にも応用できる可能性があると同氏は述べた。
「人間の身体と脊髄には、バランスのとり方や向きを変える方法についての非常に一般的なモデルがあり、朝に膝が痛むことに適応できるので、今は少し違う歩き方になっています」と彼は言う。 「それについて考える必要はありません。神経系と脳のどこかに、体がすぐに適応できるようにする一般的なモデルがあります。」
世界のモデルの最終目標は、より賢いロボットだけではありません。 Castricato 氏は昨年 Overworld を設立し、ロードアイランドに本拠を置くこの小さなスタートアップは現在、仮想キャラクターが森の中を移動し、その中のオブジェクトと対話するときに、たとえば不気味な森のシーンが適応できるビデオ ゲームの世界を構築しています。
同氏はインタビューで、「ドアを通り抜けるだけで済む世界モデルや、これほど詳細な環境と対話できる世界モデルは他にない」と語った。 「私たちは何よりもインタラクションを最適化します。」
短期的な応用は AI コーディング ツールほど明らかではありませんが、世界的なモデル メーカーは、Kindred Ventures の共同創設者兼マネージング パートナーである Steve Zhang のようなベンチャー キャピタリストの関心を集めています。
同社はOverworldのほか、天気予報用のAIモデルを構築するCausal Labsや世界モデルに適応した特別なコンピューターチップを構築するExtropicなど、世界モデルに焦点を当てた企業に投資している。
「将来は、さまざまな哲学やアーキテクチャを備えたさまざまなタイプのモデルになると思います」と Zhang 氏は言います。 「それらすべてを支配する、大きくて密度の高い 1 つのモデルになるとは思いません。」
Lee 氏は最近の論文で、競合するビジョンに関する混乱を解決するために「世界モデルの分類法」を作成しようとしました。
「驚異的だが物理的に不可能な炎を生成するビデオモデル、プレイ可能なゲームを即興で作成する言語モデル、燃焼を忠実にシミュレートする物理エンジンはすべて同じ名前です」と彼女は書いている。
彼女は世界モデルを 3 つのカテゴリーに分類しました。現在最も商業的に実現可能なのは、作成する仮想世界の視覚的な忠実性を優先する「プロセッサ」ですが、ロボットに多くのことを教えるには信頼できません。
次に、世界の物理構造を忠実に表現する仮想トレーニング場を作成する「シミュレーター」があります。そして、構造化されていない世界で AI エージェントやロボットが何をすべきかを予測しようとする「プランナー」。
「計画を立てることができるロボットは仕事ができるロボットであり、業界全体が最初にそこに到達するロボットになるために競争している」と彼女は書いた。