Smart Answers AI によって生成された概要
要約すれば:
- Macworld の分析により、Apple の Siri AI は基本的な Google Gemini モデルをベースとして使用していますが、Apple 独自のデータで再トレーニングし、Apple Silicon 向けに最適化していることが明らかになりました。
- Apple は 5 つの第 3 世代 AI モデルを導入しています。単純なタスク用の 2 つのオンデバイス モデルと、複雑な処理用の 3 つのクラウドベース モデルで、すべてプライベート クラウド コンピューティングを使用して保護されています。
- Gemini の基礎を使用しているにもかかわらず、Siri AI は Google の実装とは異なるエクスペリエンスを提供し、Apple がセキュリティとデータ処理の完全な制御を維持します。
Apple は今週、Siri AI と適切に名付けられた、Siri の劇的に改良されたバージョンを発表しました。しかし、X や Reddit などの Apple 愛好家の間では、賞賛の代わりに、すでに決定が下されています。Siri AI は、独自のインターフェイスと音声を備えた、Google の Gemini の少し古いバージョンにすぎません。
信じても許されるでしょう。 Apple が Siri を高速化するために Google の Gemini テクノロジーに頼っているという噂が何か月も流れ、今年 1 月にその趣旨の曖昧な共同声明が発表されたが、確かに新しい Siri はまさにそのようなものになるように見えた。
しかしその後、大規模な WWDC 基調講演は終わってしまい、ジェミニについてはほとんど言及されませんでした。基調講演に続き、Appleはイベント後にジャーナリスト向けに非公開の「技術ディープダイブ」を開催し(正式な録画やストリーミングは行われなかった)、そこでクレイグ・フェデリギ氏とSiriとAIを担当する3人のApple副社長がSiriとGoogleの関係について詳しく説明した。 AI に関してはいつもそうであるように、真実は複雑で、関係する各企業は、自社の本質について非常に正確かつ不透明な言葉を使用しています。 しないでください 彼ら以上のことを言う する 言う。
しかし、Appleの新しいSiri AIが実際には何なのか、それがどのように機能するのか、そしてGoogleのGeminiがどのように関与しているのかをより明確に理解するのに役立つ情報がたくさんあります。
Appleの新しいベースモデル
一番下から始めましょう。 AppleはWWDC中に「ベースモデル」という用語を多用した。つまり、アプリで特定の AI エクスペリエンスを提供するために全体または部分的に使用される、膨大な量のデータでトレーニングされた大規模な AI モデルです。それらは、言語モデル、視覚モデル、画像生成モデル、または音声処理モデルである可能性がありますが、現代の基盤モデルはいわゆるマルチモーダルであり、これらすべてを一緒に理解して結果を生み出すことを意味します。
ほとんどの企業は、大規模な基礎モデルをさまざまなサイズにグレード分けしています。このモデルの最新バージョンは非常に大きいため、数百ギガバイトの RAM と巨大で高価な高性能プロセッサを搭載した巨大な AI サーバーでのみ適合し、適切に実行できます。そのため、企業は、より小さなサーバー、デスクトップ、ラップトップで実行できる、より少ない「パラメータ」を備えた小さなバージョンを作成し、さらにはスマートフォンで直接実行できる小さなモデルさえも作成します。

Apple には、Siri と Apple Intelligence に関連するタスクを処理する 5 つの基本モデルがあります。
りんご
Apple の機械学習研究サイトの投稿で説明されているように、Apple には 5 つの新しい第 3 世代の主力製品があります。最初の 2 つのモデルは、デバイス上で直接動作するように設計された小規模なモデルです。
- AFM 3コア: 品質のステップアップを提供する次世代の高密度 30 億パラメータ モデル。
- AFM 3コアアドバンスト: Apple のデバイスの中で最も強力なモデル。ネイティブにマルチモーダルであり、表現力豊かな音声や高精度のディクテーションなどの便利な機能が可能です。最先端の Apple 研究に基づいて構築されたこの 200 億パラメータ モデルは、スパース アーキテクチャを使用しており、リクエストに応じて一度に 10 ~ 40 億のパラメータのみを実行します。このモデルは、最新の Apple デバイスでのみ動作します。
これらはどちらも、サポートされているすべてのハードウェアのデバイス上で直接実行できるように設計されています。 AFM 3 Core Advanced モデルには、iPhone 17 Pro または iPhone Air、M3 と少なくとも 12GB の RAM を搭載した Mac、または M4 を搭載した iPad が必要です。 Apple が言うところの「スパース アーキテクチャ」、つまり、さまざまな分野に特化した部分に分割されており、申請時に必要な部分だけがロードされることを意味します。たとえば、数学に特化した記事は、ブルジュ ハリファの高さを尋ねた場合には読み込まれませんが、地球と月の間にブルジュ ハリファがいくつ収まるかを尋ねた場合には読み込まれます。
デバイス内のモデルには、次の 3 つの新しいクラウドベースのモデルが加わりました。
- AFM3クラウド: 速度、効率、パフォーマンスが最適化された Apple のサーバーサイド モデル。
- ADM 3 クラウド (イメージ): 写真の作成と編集に特化しており、高度な写真編集ツールやまったく新しい遊び場などが利用可能になります。
- AFM3クラウドプロ: Apple の最も機能的なサーバーベースのモデルで、エージェント ツールや複雑なロジックの使用など、最も要求の厳しいユースケースを強化します。
AFM 3 Cloud は、ほとんどの処理を処理する大規模なサーバー モデルですが、本当に複雑なリクエストには、AFM 3 Cloud Pro があります。これらには、Image Playground (および Image Playground フレームワークを呼び出すすべてのアプリ)、genmoji、およびすべての新しい AI 画像編集ツール (Clean Up、Extend、Reframe) に使用される特別な画像中心モデルが結合されています。

Apple は独自のプライベート クラウド コンピューティングを使用して、リクエストを暗号化して安全に保ちました。
りんご
Apple は(ほとんどの場合)独自のサーバーを使用します
最初の重要な点は、最初の 4 つのモデル (オンデバイス モデルと最初の 2 つのクラウド モデル) が Apple Silicon 上で実行されるということです。クラウド モデルは Apple のプライベート クラウド コンピューティング アーキテクチャを使用しており、ソースが研究者に公開され、リクエストを完了するためにクラウドに送信されるデータのみが必要であることが保証されます。クエリの後、データは削除され、保存されることはありません。
最大のクラウド モデルである AFM 3 Cloud Pro は、現在の Apple Silicon ベースのサーバーが提供できるよりも多くの機能を必要とします。これは、Nvidia GPU を備えた Google のクラウド インフラストラクチャ上で実行されるように構築されていますが、既製のサーバーをレンタルするものではありません。 Apple もここでプライベート クラウド コンピューティング インフラストラクチャを運用しています。 PCC の中核となる要件はすべて満たされています。ステートレスな計算、ランタイムへの優先アクセスなし、ノンターゲティング、検証可能な透明性です。
Apple が Nvidia ハードウェアを使用してプライベート クラウド コンピューティングを Google サーバーに拡張する方法について詳しくは、Apple Security Research サイトをご覧ください。

Siriはアップルです。アップルはSiriです。 iPhone に表示されるものは双子とは何の関係もありません。
りんご
Siri AI はどのように機能するのでしょうか?
Siri にリクエストを行うと、入力または音声認識モデルを使用して、まずリクエストが解釈されます。次に、System Orchestrator と呼ばれるコンポーネントが、ユーザーが言ったことを一種の基本的な目に見えないディレクティブに変換し、どのモデルに送信するかを決定します。
Siri に家の電気をつけたり、タイマーを開始したり、天気を教えたりするよう依頼すると、デバイスのモデルがそれを処理します。ただし、いくつかの段落のテキストを作成する場合は、システム オーケストレーターがプロンプトをプライベート クラウド コンピューティング クラスターに送信して処理します。また、このリクエストを満たすために必要な適切なデータも送信します。

スクリーンショット
鋳物工場
たとえば、ゲストがポットラックに持ち込むアイテムのメニューを電子メールで作成する場合、システム オーケストレーターはまず、関連するテキスト メッセージを検索インデックスから取得する可能性があります。関連情報が含まれている場合は、iPhone の画面に表示されるスクリーンショットが含まれる場合があります。テキストが生成されてデバイスに送り返されると、リクエストと関連するすべてのデータが削除されます。これはすべて暗号化と仮名を使用して行われるため、Apple や Google の誰もデータや結果へのリクエストにアクセスできなくなります。
これが、画像とデータをクラウドにアップロードして処理する必要があるため、iOS 27 のデモで一部の新しい AI 画像処理ツールが遅く見えた理由の 1 つです。機内モードをオンにして Wi-Fi から切断すると、新しい AI 画像ツールはまったく使用できなくなります。
双子はどこに入るのですか?
WWDC の基調講演に続くディスカッションの中で、フェデリギ氏は Siri AI が優れている理由を説明しました。 ない ジェミニ:
もちろん、アプリとして Gemini アプリはありません。実際、このクライアント コードはどれも iOS での動作の一部ではありません。これらのモデルについては、Google が顧客に展開するモデルは一切使用せず、Google が顧客にモデルを展開するインフラストラクチャや手段も使用しません。そして、ナレッジベースに関して言えば、私たちは明らかに Google 検索などをシステムの基盤として使用しません。それが明らかであることを願っています。私たちが使用している Google アシスタントは 1 つではありません。
クレイグの言葉を注意深く読むと、彼が具体的に次のように言っていることがわかります。 顧客体験 (アプリとアシスタントは)Twins ではなく、特定のサーバーも、Google が顧客に Twins を提供するために使用するサーバーと同じではありません。さらに、Siri AI は Web 検索や Google のナレッジ グラフから情報を取得しません。彼は自分自身を利用します。
しかし、フェデリジはそうする ない Apple 自身のモデルは Gemini コードに基づいていないと主張。実際、同氏は、Apple Silicon 上で動作するように作られた 4 つのモデルが「強化学習による独自のデータを使用してトレーニングされ、Gemini モデルからの出力を使用してベンチマークが行われている」と具体的に述べています。最大のモデルは、Google と Apple の両方の独自データを使用してトレーニングされているか、サイズ以外にこのステートメントから除外される原因となった他の何らかの特徴がある可能性があります。

りんご
それで、それは何を意味するのでしょうか? Apple は基本的な Gemini モデルから開始し、Apple Silicon と必要なモデル サイズに合わせて最適化および再構築し、データ、重量、安全レールを使用して再トレーニングしたようです。ユーザーは、iPhone 上の Siri AI に、Pixel スマートフォン上の Google の Gemini と同じパフォーマンス、機能、結果を期待すべきではありません。
私が好んで使用する例え: Apple は、Mac OS X に遡るすべてのオペレーティング システムのコアとして Unix (技術的には、Darwin と呼ばれる Unix の派生製品) を使用しました。しかし、それは、Apple のオペレーティング システムが Unix と同じ互換性、機能、または特性を共有するという意味ではありません。また、優れたオペレーティング システムを作成するために必要な世界クラスのオペレーティング システム エンジニアが Apple に欠けているというわけでもありません。 Unix は単なるベースであり、開発をより迅速に進めるための手段です。 1999 年と 2000 年に Mac OS X (その後 iPhone OS など) を構築したのと同じように、Apple は他人の作品を利用して開始し、その後、最初の時点から見分けがつかない独自のものを構築しました。