このスポンサー記事は Wetour Robotics によって提供されています。
風力タービンの現場技術者は、ハーネスをクリップで固定され、両手でレンチを握り、ベルトにぶら下がっている診断装置にコマンドを送信する必要があります。積み込みドックにいる物流作業員は、手袋をはめ、パレットに目を向けながら、接続されているエレベーターのルートを変更する必要があります。交通量の多い道路でモビリティ デバイスを使用している人は、電話を取り出したり、大声で話したりせずに、モビリティ デバイスを前に押し出したいと考えています。これらの瞬間には、より賢いロボットは必要ありません。彼らは、既存のマシンに聞こえるためのよりスマートな方法を求めています。
業界は一方では築かれました
過去 3 年間の物理 AI は、ロボット側での目覚ましい進歩の物語でした。 Boston Dynamics、Figure、Unitree などの企業は、アクチュエーター、動作、スキルを 10 年前には不可能と思われたレベルまで進歩させました。 Google DeepMind の Gemini Robotics は、ビジョンアクション言語モデルが非構造化設定で何ができるかを再定義しました。基盤となるハードウェアとモデルの軌跡は現実のものであり、加速しています。
しかし、このループには別の側面があり、あまりにも長い間、解決された問題として扱われてきました。人間と機械の間のインターフェースは 40 年間、画面、ボタン、音声という 3 つの入力モードがデフォルトとなってきました。これらはいずれも、ユーザーが立ち止まり、下を向き、意図を理解可能なコマンドに変換できることを前提としています。この前提は、創作物が現実の環境に移されるとすぐに崩れます。タービンの上で。歩道のプラットホーム上 両手がふさがっていたり、目が集中していたり、会話が実用的でないような環境では、従来のインターフェイス スタックは静かに障害を起こします。
空間意図の融合とは、人間を中心とした 3 つの情報の流れ、つまり空間的位置、視覚的コンテキスト、およびジェスチャーの意図を同時に処理することであり、あなたの身体がインターフェースです。
ループの人間側のボトルネックは、マシン側のボトルネックと同じくらい重要になります。そして、この解決策には別の質問が必要です。ロボットの能力を高める方法ではなく、ロボットが既に行っているように、人間が自然な方法でコンピューティング システムに参加できるようにする方法です。
Wetour Robotics の賭け: 人間をコンピューティングのループに戻す
Wetour Robotics は、物理 AI における次のアーキテクチャの飛躍はロボットの能力を高めることではないと賭けています。それは、接続されたデバイスがすでに享受しているのと同じ種類の低遅延、高忠実度の参加を備えた、人間をコンピューティング ネットワーク内のファーストクラスのノードにすることです。
Wetour Robotics のエンジニアは、ジェスチャーを認識するリストバンドだけでは不十分であるという問題を次のように捉えています。シーンを認識するカメラだけでは十分ではありません。人がこれから行おうとしていることについての情報は、その人の身体が空間のどこにあるか、目が何を聞いているか、筋肉が何をしようとしているかなど、複数のチャネルに分散されており、単一のチャネルを単独で見ると曖昧になります。信頼できるインテントを再構築するということは、ループが閉じていて仲介されていないと感じられるほど十分に低い遅延で、これらのチャネルをオペレーティング システム レベルで融合することを意味します。
このアプローチには名前があります。 Wetour Robotics はこれを空間インテント フュージョンと呼んでいます。人間中心の情報の 3 つのストリーム、つまり空間位置、視覚的コンテキスト、およびジェスチャのインテントを同時に処理し、接続された各物理デバイスに対する単一のリアルタイム コマンドに統合します。これは、会社が外部で使用する、より単純なポジショニング ステートメントの背後にある技術的な実装です。つまり、あなたの体はインターフェイスです。
Orchestra は、センサー フュージョン、意図推論、コマンド変換、安全性調停を処理するオペレーティング システムを実行するモバイル インテリジェント ハブです。リファレンス コンピューティング プラットフォームは NVIDIA Jetson Orin Nano Super で、クリティカル パスのクラウドから独立して、制御ループ全体をエッジに維持するのに十分な推論機能をデバイスに提供します。 ウェツアーロボティクス
アーキテクチャ: 3 つのレイヤー、4 つのエンジン、1 つのループ
Orchestra は単一のデバイスではなく、階層化されたプラットフォームであり、最初からセンサーに柔軟に対応し、オペレーターに依存しないように設計されています。このアーキテクチャは、3 つの認識層と 4 つの調整エンジンに分かれています。
オーケストラ それ自体がローカル コンピューティングおよびオーケストレーション コアであり、センサー フュージョン、意図推論、コマンド変換、安全性調停を処理するオペレーティング システムを実行するモバイル インテリジェント センターです。リファレンス コンピューティング プラットフォームは NVIDIA Jetson Orin Nano Super で、クリティカル パスのクラウドから独立して、制御ループ全体をエッジに維持するのに十分な推論機能をデバイスに提供します。このアプリケーションでは、エッジ推論は交渉の余地がありません。生体信号の取得からオペレーターのコマンドまでのフルチェーン遅延は 100 ミリ秒未満であり、閉ループ制御が自然で遅れを感じない範囲内です。
ビジョンリンク 視覚と空間認識を扱います。カメラは、物体を検出し、距離を推定し、環境コンテキストを追跡するビジョンモデルに入力します。 VisionLink は、受動的検出レイヤーとしてではなく、リアルタイム コマンド ジェネレーターとして設計されています。その出力は Orchestra OS に直接供給され、生体信号データとマージされます。
導体 生体導管です。手首に装着するデバイスから生の表面筋電図 (sEMG) データを受信し、時間的パターンを離散的なジェスチャまたは連続的な制御信号に分類し、アクチュエーター コマンドを発行します。このユースケースにおける sEMG の技術的に興味深い特徴は、信号の前に明白な動きが存在することです。運動単位の活動電位は、指が適切なジェスチャーを完了する約 50 ~ 80 ミリ秒前に皮膚に現れます。 Wetour Robotics はこの機能をプレモーション意図センシングと呼んでおり、これにより Orchestra はユーザーの意図に反応するのではなく、ユーザーの意図を予測できるようになります。
Orchestra OS は 3 つの認識層の上で 4 つの調整エンジンを実行します。の 認識エンジン 生のセンサー ストリームを取り込んで正規化します。の インテントエンジン モード間で空間的意図の融合を実行し、ユーザーがどこにいるか、何を見ているか、そして手が何を伝えているかを考慮して、ユーザーが何をしようとしているかを解決します。の オーケストレーション エンジン 接続されている各オペレータのデバイス固有のコマンド シーケンスに意図を変換します。の セーフティエンジン 矛盾する命令を整理し、運用範囲を強制し、実行中の安全条件に対するパフォーマンスを評価します。
ウェツアーロボティクス
私たちは妥協について正直です
人間の身体とデジタル世界を橋渡しするシステムはまだ完成していません。エンジニアリング上の 3 つの課題が未解決のままであり、同社は完全な解決策を主張するのではなく、意図的な妥協によってそれぞれの課題に対応しています。
動作中の sEMG のベースラインの安定性。 静止したユーザーの場合、sEMG からの継続的なジェスチャ認識は信頼性があります。ユーザーが歩いたり、登ったり、その他の方法で移動すると、モーションアーチファクトや電極ドリフトが信号に影響を及ぼし、完全に補償するのは困難になります。 Orchestra は、動的な設定に対する継続的な制御を過剰に保証するのではなく、複雑な動作環境で強力な離散ジェスチャのより小さなセットをデフォルトとして使用し、信号対雑音比がサポートするコンテキストに対して連続制御モードを予約します。
人工知能エッジコンピューティングの小型化。 オーケストレーション制御ループを完全にエッジで実行するには、デバイス上で実際の推論が必要ですが、これは歴史的に、コンピューティング能力、バッテリー寿命、およびフォームファクターの間のトレードオフを意味していました。 Wetour Robotics のアプローチは、熱設計と終日着用可能なサイズのバッテリー モジュールを組み合わせたコンパクトなキャリア ボードでした。その結果、ユーザーを机に縛り付けるのではなく、ユーザーと一緒に移動し、クラウドにダウンロードすることなく完全な操作のキャプチャ ループを実行するハブが誕生しました。
サードパーティデバイスプロトコルの異種性。 ループの演算子側は断片化されたビューです。メーカーが異なれば、異なるコマンド インターフェイス、異なる通信スタック、異なるセキュリティ規約が公開されており、物理的な AI オペレーティング システムはそれらすべてと統合する必要があります。 Wetour Robotics は、AI エージェント層を使用して接続を適切にネゴシエートし、プロトコルを変換します。これにより、Orchestrator OS はさまざまなデバイスからデータを取り込み、人間の意図を推測するニューラル ネットワーク モデルを通じてデータを実行し、相手側のデバイスに適切なプロトコルで適切なコマンドを発行できます。
なぜそれが重要なのか、そしてなぜそれが他の分野に役立つのか
コンピューティングの歴史はインターフェース革命の歴史です。コマンド ラインはグラフィカル ユーザー インターフェイスに取って代わられ、グラフィカル ユーザー インターフェイスはタッチに、音声に取って代わられました。それぞれの移行により、システムに参加できるユーザーと、システムで何ができるかが拡大しました。次の遷移は、新しい画面や新しいマイクとは関係ありません。それは、人体そのものをコンピューター ネットワークの参加者として扱い、他の接続されたノードと同じくらい迅速かつ忠実に意図に貢献できるようにすることです。
コンピューティングの歴史はインターフェース革命の歴史です。次の遷移は、新しい画面や新しいマイクとは関係ありません。それは、コンピュータ ネットワークの参加者としての人体そのものを指します。
この道は、人型ロボット、身体化された AI の基本モデル、および巧みな操作で行われている研究と競合するものではありません。それはこの作品に欠けている補完物です。人間のシステムにとって最も困難な未解決の問題はデータです。人間と物理世界との自然な相互作用はすべて潜在的なトレーニング信号であり、これらの相互作用のほとんどは現在、どのコンピューティング システムにも見えません。より多くの人間がループの一次ノードになるにつれて、これらの相互作用は観察可能かつ理解可能になり、最終的には現在開発されている人型ロボットを含む次世代の身体化人工知能のトレーニングに役立ちます。
言い換えれば、人間をコンピューティング ループに戻すということは、個々のユーザーにとってインターフェイスを改善するだけではありません。それは、より広範な物理 AI エコシステムが前進し続けるために必要となる、地上ベースの人間と機械の相互作用データを生成することです。ループのロボット側と人間側は、競合する 2 つの未来ではありません。これらは同じものを半分にしたものです。
Wetour Robotics が言うときの意味は次のとおりです。 あなたの体はインターフェースです。
詳細については、wetourrobotics.com をご覧ください。