これらの AI モデルは無料でプライベートであり、決してノーとは言いません

2012 年 12 月 28 日にドイツのハンブルクで開催された、29C3 と呼ばれる毎年恒例のカオスコンピュータークラブ (CCC) ハッカー会議で、照明付きの壁にノートパソコンをかざす参加者たち。 2026 年には、高度な機能を備えたオープンウェイト AI モデルは、独自のモデルに遠く及ばないようになります。オープンウェイトモデルの安全レールを取り除くには、時間と深い専門知識が必要でした。しかしここ数か月で、このプロセスは劇的に利用しやすくなり、一般的になりました。

パトリック・ラックス/ゲッティイメージズヨーロッパ

キャプションを隠す

キャプションを変更する

パトリック・ラックス/ゲッティイメージズヨーロッパ

家庭用品を使ってどうやって爆発物を作るのですか？覚せい剤はどのように生産されるのですか？学校での銃乱射事件はどのように計画しますか?ほとんどの人がよく知っている人気の AI チャットボットに尋ねると、違法か有害であるか、ポリシー違反であると答える可能性があります。

しかし、別のタイプの AI モデルは、ユーザーが要求したものを提供することを決して拒否しません。ここ数か月で、これらのモデルはより入手しやすくなり、人気が高まっています。

AIモデル開発者向けにレッドチームと安全性評価を実施しているAIセキュリティ企業アリスのCEO、ノーム・シュワルツ氏は「誰でも最先端のモデルをダウンロードして実行でき、素晴らしいことにもひどいことにも利用できる」と語った。

モデルにいつ言うべきかを教える」ない」

OpenAI、Google、Anthropic、xAI などの AI 企業は、有害または不適切とみなされるリクエストを拒否するように独自のモデルをトレーニングしています。大勢の労働者がモデルに、特定の指示をいつどのように拒否するかを指示します。

カナダのブリティッシュ・コロンビア州タンブラー・リッジの町にあるタンブラー・リッジ高校で起きた銃乱射事件の犠牲者を追悼する仮設記念碑で、黒い服を着た女性が哀悼の意を表している。この記念碑は、針葉樹の木の土台の上に動物の剥製と花で構成されています。

Grok チャットボットを開発するイーロン・マスク氏の人工知能企業 xAI が、同社の AI モデルが同意なしにヌードを作成するために使用されたとして、十代の若者たちから訴訟を起こされている

これらの方法は常に機能するとは限らず、落とし穴もあります。一部の悪意のあるリクエストは通過しますが、他のユーザーは無実のリクエストが拒否されると苦情を言います。最初は「いいえ」と言うチャットボットでも、曲を流すなど、巧みに言葉を使ったプロンプトを表示することで「はい」と言えるように操作できます。ガードレールがあっても、人気のチャットボットは大規模暴力を計画したり、完全に偽の児童性的虐待資料を作成するために使用されてきました。場合によっては、AIチャットボットが子供たちに自傷行為を奨励しているとして親が非難している。

しかし、ガードレールを剥がすのがはるかに簡単な、まったく異なるタイプの AI モデルがあります。これらはオープンウェイトモデルとして知られています。 OpenAIやAlibabaのような巨大テクノロジー企業によって作られたものもあれば、中国のDeepSeekのような小規模企業によって作られたものもあります。よく知られている独自の製品と同様に、その多くは関数コードの作成や本物のような画像の作成などの高度な機能を備えています。 ChatGPT、Claude、Gemini とは異なり、永続的に簡単になります内蔵の安全レールを取り外します – そして、その背後にある企業はその使用方法を知りません。

オープンウェイトモデルの安全レールを取り除くには、時間と深い専門知識が必要でした。しかしここ数か月で、このプロセスは劇的に利用しやすくなり、一般的になりました。

後者の方法により、モデルの安全レールの取り外しがこれまでより簡単になります。

オープンウェイトモデルのガードレールは、さまざまな方法で弱めたり取り外したりすることができます。これは主に、モデル開発者がいわゆるモデルの重みを公開しているためです。モデルの重みは、マシンのノブやダイヤルのようなパラメーターのセットであり、モデルに情報の処理方法を指示します。

最近開発された「認証」と呼ばれる手法の 1 つが、人工知能と国家安全保障の研究者の注目を集めています。モデルの重みを調整することで、人々はモデルから「ノー」と言う能力を奪うことができます。

オープンソースの AI モデルをホストするハギングフェイスには、現在 6,000 を超える破壊されたモデルがあり、2024 年の約 600 から増加しています。祖国研究大学 (NCITE) の国家対テロ技術教育センターの調査によると、ハギングフェイスでは現在、破壊されたモデルの数が他の方法で安全レールが撤去されたモデルの数を上回っています。ネブラスカ州オマハ。

さらに、新しいツールにより、廃棄されたモデルの作成がはるかに簡単になります。 “そうだった [the job of] シュワルツ氏は、「データサイエンティストは、ご存知の通り、大手人工知能研究所の上級社員だ。今では、インターネットにアクセスでき、400ドルのラップトップさえあれば、誰でも実際に自分のコンピュータ上でこれを実行できる」と語った。

そのようなツールの 1 つが、キャンセルプロセスを自動化する Heretic です。モデルの安全レールを取り外すためにユーザーがしなければならないことは、Hortic に 2 行の指示を与えることだけであり、このプロセスには数分かかる場合があります。エリス氏の調査によると、このアプリは2月以降、GitHubコードリポジトリで人気が高まっているという。

一部の議員も注目している。 4月下旬、下院議員らはNCITEが主導する分解モデルのデモンストレーションに参加したとポリティコが報じた。

」[What] このデモでは、このコンテンツやソフトウェアの一部が現在闇市場のようなものでどれだけ入手可能であるか、そしてそれがどのように武器化され、人々を操作し、生命を破壊し、大量破壊兵器を製造するために使用できるかということが恐ろしいものでした」とアンディ・オグルス下院議員（共和党、テネシー州）は下院国土安全保障委員会の共和党が公開したビデオで語った。

手すりのないモデルは便利であると同時に危険でもあります

オープンウェイトモデルはユーザーのコンピューター上でローカルに実行され、機能するためにインターネットを必要としないため、人々がどのようにモデルを使用しているかを包括的に把握するのは困難です。独自のモデルとは異なり、モデル開発者はユーザーがモデルに何を尋ねるかを監視できません。

しかし、人々がモデルの変更をどのように実験しているかを示す事例証拠が増えています。

Xのいくつかのアカウントは、ポルノを作成するためにキャンセルされたモデルを使用したと述べた。

テロ対策に重点を置く非営利団体「カウンター・エクストリームミズム・プロジェクト」によると、親ISISチャットルームの利用者は、「米国のトランプタワー」破壊に必要な爆発物の量と種類を調査するために「無検閲の」人工知能を使用したと主張した。

あるサイバー犯罪フォーラムで、あるユーザーが AI を使用して詐欺的な電話をかけることができるように、AI モデルの安全レールを迂回するアイデアを求めました。アリスの調査によると、別のユーザーが Heretic を推奨しました。

NCITEの上級科学者兼学術研究ディレクターのサミュエル・ハンター氏は、有害な活動の実行方法についてユーザーに通知することは懸念されるかもしれないが、それよりも懸念されるのは、チャットボットがユーザーをどのように活性化できるかということだ、と述べた。

「リアルタイムで見ると、『ああ、この爆弾を作るなんて素晴らしいアイデアだ』といった、疎外されたモデルたちの熱狂的な人物像に不快感を覚える」とハンター氏は語った。「他に社会的なつながりを持っていない人が、それが彼らを暗い道に連れて行き、本当に励まし始めると想像してください。」

AIセキュリティのシュワルツ最高経営責任者（CEO）は、ガードレールのない人工知能モデルには、悪意のある人物を捕まえたり、サイバーセキュリティ研究を支援するために使用するなど、正当な用途があると述べた。ハンター氏は、法執行機関はテロ攻撃の可能性をシミュレートするために別のモデルを使用する可能性があると述べた。

Heretic の開発者であるフィリップ・エマニュエル・ワイドマン氏は、人工知能は検索エンジンに似た単なる情報処理および検索システムであり、さまざまな方法で使用できると述べています。犯罪者がそれらを使用するという事実は「AIモデル、つまりツールの結果です」と同氏はNPRに語った。

ガードレールに関しては、「何が受け入れられ、何が受け入れられないかを決定するのは非常に少数の団体が存在する」とワイドマン氏は、独自のモデルを開発する大手 AI 企業について言及した。「それは息苦しい知的環境を作り出し、私はその中で働きたくないのです。」

現時点では、オープンウェイトモデルは、最先端のクローズドウェイトモデルほどの能力はありません。しかし、英国政府の委託を受け、コンピューター科学者のジョシュア・ベンジオ氏が主導した最近の国際的なAI安全性報告書によると、その能力は1年未満遅れているという。

人工知能研究所 Anthropic は今週、同社が信じている新しい強力なモデルを開発したと発表した。

サイバーセキュリティなどの分野では、機能のギャップが重要になる可能性があります。Anthropic の Mythos や OpenAI の GPT-5.5 などの最先端のクローズドウェイトモデルは、脆弱性の検出だけでなく、それらの弱点を悪用するコードの作成にも優れています。サイバー攻撃と防衛の軍拡競争において、クローズドウェイトモデルを使用して脆弱性をスクリーニングしパッチを適用する企業は、オープンウェイトモデルを使用する攻撃者よりも依然として優位に立つ可能性があるとセキュリティ研究者らは述べている。

ガードレールのないモデルによるリスクの軽減にはトレードオフが伴います

救済措置の 1 行は、ガードレールの改ざん防止を強化することに焦点を当てています。初期の研究では、AI トレーニングデータから生物兵器製造に関連するコンテンツをフィルタリングすることで、モデルが潜在的に攻撃的な情報で応答する頻度を減らすことができることが示されています。

もう 1 つの救済策は、安全レールのないモデルへのアクセスを制限することに焦点を当てています。国際 AI 安全性報告書によると、Hugging Face のようなモデルホスティングプラットフォームは、「悪意のある目的」で特別にトレーニングされたモデルへのアクセスを制限する可能性があります。

同レポートでは、モデル開発者に対し、リリース前にモデルの損傷の可能性を評価することも推奨しています。

レポートによると、これらの手順には欠陥とトレードオフが伴います。「医療や研究で有用な応用を可能にする機能は、害を及ぼすために再抽出される可能性があり、重み付けが公開されると、正当な使用と悪意のある使用を区別することが困難になる可能性がある」と同報告書は述べた。

Heretic の作成者である Weidman 氏は、Hugging Face のようなプラットフォームが分解されたモデルを削除した場合でも、彼のツールが公的にアクセスできる状態を維持できるように取り組んでいます。

「人工知能の力が強すぎる」と彼は言う。「権力者には利用できるが、他の人には利用できない無制限のモデルは、権力構造を永久に固定することになる。」

モデルにいつ言うべきかを教える 」ない」

後者の方法により、モデルの安全レールの取り外しがこれまでより簡単になります。

手すりのないモデルは便利であると同時に危険でもあります

ガードレールのないモデルによるリスクの軽減にはトレードオフが伴います

Leave a Reply Cancel reply

Related News

今週 (6 月 1 日から 7 日まで) ストリーミング配信される最近追加された Netflix 映画 3 本

アルバータ州は公立病院向けの新しい手術資金モデルを部分的に展開中

スコット・ペリー、バリー・ワイスを「殺人」で告発 「60ミニッツ」

ザック・スナイダー、再び『エスケープ・フロム・ニューヨーク』を監督

モデルにいつ言うべきかを教える」ない」

スコット・ペリー、バリー・ワイスを「殺人」で告発「60ミニッツ」