Bumi 氏は、これによって IT リーダーに、業界全体で不足しているトークン支出の可視性を高めることができると期待しています。同社は Boomi Prompt と呼ばれるツールを開発中です。このツールは、エンタープライズ アプリケーションや大きな言語モデルと、人間のユーザーに代わってタスクを実行するためにこれらのシステムにアクセスする必要がある人工知能 (AI) エージェントとの間の仲介者として機能します。
人工知能と AI エージェントの使用が増加し始めるにつれ、大規模言語モデル (LLM) と AI ツールのベンダーは、サブスクリプション スタイルまたはサービスとしてのソフトウェア (SaaS) ソフトウェア ライセンスから、トークンで測定される AI 推論に関連するコストに基づく価格設定に移行しています。
トークンは、AI または LLM エンジンが入力として受け取る情報の最小部分であり、文中の単語と同様です。 LLM に送信されるトークンの量が増えると、トークンの使用量も増え、提供する必要のあるコンピューティング リソースが増加します。このコストは、AI ツールにクエリを送信するために組織が支払う名目コストです。
クエリが継続的に送信されると、たとえ組織がすでに答えを持っていたとしても、象徴的なコストが何度も支払われることになります。 Bumi は、そのような繰り返しの応答を保存し、組織がすでに答えを持っているときにトークンに不必要に支出するのを防ぐことを目的としています。
Bumi 氏によると、Prompt ツールは、ユーザーまたは AI エージェントからの質問に答えるのに最もコストがかからない LLM を特定することもできます。
ロンドンで開催されたBoomiワールドツアーで同社CEOのスティーブ・ルーカス氏は、AIエンジンとバックエンドシステムの間に「レイヤーを提供する」Promptと呼ばれるツールを今年後半にリリースする予定だと述べた。
エージェントは、アプリケーション プログラミング インターフェイス (API) を使用して、SAP または Oracle システムに保持されている情報を検索したり、LLM を呼び出したりすることができます。エージェントがタスクの実行を求められたとき、同氏は、「エージェントが SAP システムと Oracle システムからデータを探していて、プロンプトに対する応答がプロンプト層にキャッシュされている場合は、そのキャッシュされた応答を提供します」と述べました。
これにより、API に関連する間接的なアクセス コストが発生する可能性がある、既製の商用エンタープライズ ソフトウェアにアクセスするために API を継続的に使用することに関連するコストが節約されます。
ルーカス氏によると、Boomiの新しいツールは、ユーザーやエージェントが送信したプロンプトが「トークンの書き込み」ではなく、Google検索などの標準的なSQLベースのクエリにルーティングされるタイミングも理解できるという。
しかし、同氏は、「そのガイダンスが価値がある場合は、それを人工知能モデルにルーティングします。選択されるモデルは、その応答の段階的な複雑さに依存します。」と述べました。
同氏によると、ガイダンスの一例は、2つのシステムでの支出などの予測に関する質問だという。 「当社には Nvidia の Nutron があり、この仮想シナリオでは実際に自由にビジネスを運営できます」とルーカス氏は言いました。 「プロンプトをそこにルーティングします。」
Lucas 氏によると、高速ルーティングは複雑ですが、組織にとって非常に必要な機能ですが、現在はまったくサービスが提供されていないとのことです。 「企業向けの洗練された高速ルーティング標準は存在しません」とルーカス氏は言う。
Bomi の CEO によると、Perplexity は高速ルーティングを提供しますが、エンタープライズ向けではありません。彼によれば、ボミのアプローチはさらなる到達を目指しているという。 「私たちが行っている作業には多くのレイヤーとトークン削減があり、最適化はそれらのレイヤーの 1 つです」とルーカス氏は述べています。 「高速ルーティングにより、企業はトークン支出を大幅に削減できます。私たちの設計目標は、企業内のトークン支出を 50% 以上削減することです。」