SubQ は既存の主力モデルを全面的に置き換えるものではありませんが、特定のタスクでは通常のコストの数分の 1 で大幅な速度向上を実現できます。しかし、Subquadratic は、長期的にはその画期的な進歩により LLM の構築方法が変わる可能性があると主張しています。同社の創設者兼最高経営責任者(CEO)のジャスティン・ダンゲル氏は、「効率性の新時代の到来を願っている」と語った。 「数年以内に変圧器を利用した製品を開発する人は誰もいないと思います。」
注意!
Subquadratic の主張がなぜ重要なのかを理解するために、ほとんどの LLM がどのように機能するかを掘り下げてみましょう。 LLM 内の重要なメカニズムは、トランスフォーマーと呼ばれる一種のニューラル ネットワークであり、これにより、高密度の注意として知られるプロセスが活性化されます。今日の LLM は通常、複数の変圧器をつなぎ合わせています。 (2017 年に Google の研究者によって発表された、LLM 時代の影響力のある記事のタイトルは、「必要なのは注意だけです」)。
密な注意は次のように機能します。トランスフォーマーがテキストのブロックを処理するとき、最初に各単語 (またはトークンと呼ばれる単語の一部) を数値でエンコードします。全文の意味を把握するために、これらの数値のそれぞれを、そのテキストの他のすべての数値と乗算します。たとえば、10,000 ワードのテキストは、約 5,000 万の個別の見込み客を獲得します。これは多くの計算が必要であり、LLM が電力消費者として悪名高い主な理由です。
「要約するなら 華麗なるギャツビー最初の単語と最後の単語を一緒に見て、それ以外のすべての組み合わせを調べなければなりません」とダンゲル氏は言います。
テキストの長さが長くなると、計算量が急増します。これは、追加の各数値に以前の他のすべての数値を乗算する必要があるためです。ワード数が 2 倍になると、計算数はおよそ 4 倍になります。この増加率は 2 次展開と呼ばれます。
(これを自分で視覚化できます。円を描き、その端の周りに点をマークします。各点はトークンです。次に、点のペアの間に線を引いて、これら 2 つのトークンの乗算を表します。5 つの点を持つ円が円を横切ります。これを 10 点にすると、線が 45 個になり、点 1 が 20 個になり、9 個になります。などです。)
コスト削減
Subquadratic のソリューションは、変換器の中核となる動作である密な注意を排除し、必要な計算数を削減するいわゆる疎な注意を優先することです。各トークンに割り当てられた数値を他のすべての数値で乗算する代わりに、スパース アテンションは乗算する数値の一部のみを選択します。この考え方は、テキスト内の単語間のすべての関係が重要ではないということです。