これらの AI モデルは無料でプライベートであり、決してノーとは言いません

これらの AI モデルは無料でプライベートであり、決してノーとは言いません


これらの AI モデルは無料でプライベートであり、決してノーとは言いません

2012 年 12 月 28 日にドイツのハンブルクで開催された、29C3 と呼ばれる毎年恒例のカオス コンピューター クラブ (CCC) ハッカー会議で、照明付きの壁にノート パソコンをかざす参加者たち。 2026 年には、高度な機能を備えたオープンウェイト AI モデルは、独自のモデルに遠く及ばないようになります。オープンウェイトモデルの安全レールを取り除くには、時間と深い専門知識が必要でした。しかしここ数か月で、このプロセスは劇的に利用しやすくなり、一般的になりました。

パトリック・ラックス/ゲッティイメージズヨーロッパ


キャプションを隠す

キャプションを変更する

パトリック・ラックス/ゲッティイメージズヨーロッパ

家庭用品を使ってどうやって爆発物を作るのですか?覚せい剤はどのように生産されるのですか?学校での銃乱射事件はどのように計画しますか?ほとんどの人がよく知っている人気の AI チャットボットに尋ねると、違法か有害であるか、ポリシー違反であると答える可能性があります。

しかし、別のタイプの AI モデルは、ユーザーが要求したものを提供することを決して拒否しません。ここ数か月で、これらのモデルはより入手しやすくなり、人気が高まっています。

AIモデル開発者向けにレッドチームと安全性評価を実施しているAIセキュリティ企業アリスのCEO、ノーム・シュワルツ氏は「誰でも最先端のモデルをダウンロードして実行でき、素晴らしいことにもひどいことにも利用できる」と語った。

モデルにいつ言うべきかを教える ない

OpenAI、Google、Anthropic、xAI などの AI 企業は、有害または不適切とみなされるリクエストを拒否するように独自のモデルをトレーニングしています。大勢の労働者がモデルに、特定の指示をいつどのように拒否するかを指示します。

これらの方法は常に機能するとは限らず、落とし穴もあります。一部の悪意のあるリクエストは通過しますが、他のユーザーは無実のリクエストが拒否されると苦情を言います。最初は「いいえ」と言うチャットボットでも、曲を流すなど、巧みに言葉を使ったプロンプトを表示することで「はい」と言えるように操作できます。ガードレールがあっても、人気のチャットボットは大規模暴力を計画したり、完全に偽の児童性的虐待資料を作成するために使用されてきました。場合によっては、AIチャットボットが子供たちに自傷行為を奨励しているとして親が非難している。

しかし、ガードレールを剥がすのがはるかに簡単な、まったく異なるタイプの AI モデルがあります。これらはオープンウェイトモデルとして知られています。 OpenAIやAlibabaのような巨大テクノロジー企業によって作られたものもあれば、中国のDeepSeekのような小規模企業によって作られたものもあります。よく知られている独自の製品と同様に、その多くは関数コードの作成や本物のような画像の作成などの高度な機能を備えています。 ChatGPT、Claude、Gemini とは異なり、永続的に簡単になります 内蔵の安全レールを取り外します – そして、その背後にある企業はその使用方法を知りません。

オープンウェイトモデルの安全レールを取り除くには、時間と深い専門知識が必要でした。しかしここ数か月で、このプロセスは劇的に利用しやすくなり、一般的になりました。

後者の方法により、モデルの安全レールの取り外しがこれまでより簡単になります。

オープンウェイトモデルのガードレールは、さまざまな方法で弱めたり取り外したりすることができます。 これは主に、モデル開発者がいわゆるモデルの重みを公開しているためです。モデルの重みは、マシンのノブやダイヤルのようなパラメーターのセットであり、モデルに情報の処理方法を指示します。

最近開発された「認証」と呼ばれる手法の 1 つが、人工知能と国家安全保障の研究者の注目を集めています。モデルの重みを調整することで、人々はモデルから「ノー」と言う能力を奪うことができます。

オープンソースの AI モデルをホストするハギング フェイスには、現在 6,000 を超える破壊されたモデルがあり、2024 年の約 600 から増加しています。祖国研究大学 (NCITE) の国家対テロ技術教育センターの調査によると、ハギング フェイスでは現在、破壊されたモデルの数が他の方法で安全レールが撤去されたモデルの数を上回っています。ネブラスカ州オマハ。

さらに、新しいツールにより、廃棄されたモデルの作成がはるかに簡単になります。 “そうだった [the job of] シュワルツ氏は、「データサイエンティストは、ご存知の通り、大手人工知能研究所の上級社員だ。今では、インターネットにアクセスでき、400ドルのラップトップさえあれば、誰でも実際に自分のコンピュータ上でこれを実行できる」と語った。

そのようなツールの 1 つが、キャンセル プロセスを自動化する Heretic です。モデルの安全レールを取り外すためにユーザーがしなければならないことは、Hortic に 2 行の指示を与えることだけであり、このプロセスには数分かかる場合があります。エリス氏の調査によると、このアプリは2月以降、GitHubコードリポジトリで人気が高まっているという。

一部の議員も注目している。 4月下旬、下院議員らはNCITEが主導する分解モデルのデモンストレーションに参加したとポリティコが報じた。

」[What] このデモでは、このコンテンツやソフトウェアの一部が現在闇市場のようなものでどれだけ入手可能であるか、そしてそれがどのように武器化され、人々を操作し、生命を破壊し、大量破壊兵器を製造するために使用できるかということが恐ろしいものでした」とアンディ・オグルス下院議員(共和党、テネシー州)は下院国土安全保障委員会の共和党が公開したビデオで語った。

手すりのないモデルは便利であると同時に危険でもあります

オープンウェイト モデルはユーザーのコンピューター上でローカルに実行され、機能するためにインターネットを必要としないため、人々がどのようにモデルを使用しているかを包括的に把握するのは困難です。独自のモデルとは異なり、モデル開発者はユーザーがモデルに何を尋ねるかを監視できません。

しかし、人々がモデルの変更をどのように実験しているかを示す事例証拠が増えています。

Xのいくつかのアカウントは、ポルノを作成するためにキャンセルされたモデルを使用したと述べた。

テロ対策に重点を置く非営利団体「カウンター・エクストリームミズム・プロジェクト」によると、親ISISチャットルームの利用者は、「米国のトランプタワー」破壊に必要な爆発物の量と種類を調査するために「無検閲の」人工知能を使用したと主張した。

あるサイバー犯罪フォーラムで、あるユーザーが AI を使用して詐欺的な電話をかけることができるように、AI モデルの安全レールを迂回するアイデアを求めました。アリスの調査によると、別のユーザーが Heretic を推奨しました。

NCITEの上級科学者兼学術研究ディレクターのサミュエル・ハンター氏は、有害な活動の実行方法についてユーザーに通知することは懸念されるかもしれないが、それよりも懸念されるのは、チャットボットがユーザーをどのように活性化できるかということだ、と述べた。

「リアルタイムで見ると、『ああ、この爆弾を作るなんて素晴らしいアイデアだ』といった、疎外されたモデルたちの熱狂的な人物像に不快感を覚える」とハンター氏は語った。 「他に社会的なつながりを持っていない人が、それが彼らを暗い道に連れて行き、本当に励まし始めると想像してください。」

AIセキュリティのシュワルツ最高経営責任者(CEO)は、ガードレールのない人工知能モデルには、悪意のある人物を捕まえたり、サイバーセキュリティ研究を支援するために使用するなど、正当な用途があると述べた。ハンター氏は、法執行機関はテロ攻撃の可能性をシミュレートするために別のモデルを使用する可能性があると述べた。

Heretic の開発者であるフィリップ・エマニュエル・ワイドマン氏は、人工知能は検索エンジンに似た単なる情報処理および検索システムであり、さまざまな方法で使用できると述べています。犯罪者がそれらを使用するという事実は「AIモデル、つまりツールの結果です」と同氏はNPRに語った。

ガードレールに関しては、「何が受け入れられ、何が受け入れられないかを決定するのは非常に少数の団体が存在する」とワイドマン氏は、独自のモデルを開発する大手 AI 企業について言及した。 「それは息苦しい知的環境を作り出し、私はその中で働きたくないのです。」

現時点では、オープンウェイトモデルは、最先端のクローズドウェイトモデルほどの能力はありません。しかし、英国政府の委託を受け、コンピューター科学者のジョシュア・ベンジオ氏が主導した最近の国際的なAI安全性報告書によると、その能力は1年未満遅れているという。

サイバーセキュリティなどの分野では、機能のギャップが重要になる可能性があります。Anthropic の Mythos や OpenAI の GPT-5.5 などの最先端のクローズドウェイト モデルは、脆弱性の検出だけでなく、それらの弱点を悪用するコードの作成にも優れています。サイバー攻撃と防衛の軍拡競争において、クローズドウェイトモデルを使用して脆弱性をスクリーニングしパッチを適用する企業は、オープンウェイトモデルを使用する攻撃者よりも依然として優位に立つ可能性があるとセキュリティ研究者らは述べている。

ガードレールのないモデルによるリスクの軽減にはトレードオフが伴います

救済措置の 1 行は、ガードレールの改ざん防止を強化することに焦点を当てています。初期の研究では、AI トレーニング データから生物兵器製造に関連するコンテンツをフィルタリングすることで、モデルが潜在的に攻撃的な情報で応答する頻度を減らすことができることが示されています。

もう 1 つの救済策は、安全レールのないモデルへのアクセスを制限することに焦点を当てています。国際 AI 安全性報告書によると、Hugging Face のようなモデル ホスティング プラットフォームは、「悪意のある目的」で特別にトレーニングされたモデルへのアクセスを制限する可能性があります。

同レポートでは、モデル開発者に対し、リリース前にモデルの損傷の可能性を評価することも推奨しています。

レポートによると、これらの手順には欠陥とトレードオフが伴います。 「医療や研究で有用な応用を可能にする機能は、害を及ぼすために再抽出される可能性があり、重み付けが公開されると、正当な使用と悪意のある使用を区別することが困難になる可能性がある」と同報告書は述べた。

Heretic の作成者である Weidman 氏は、Hugging Face のようなプラットフォームが分解されたモデルを削除した場合でも、彼のツールが公的にアクセスできる状態を維持できるように取り組んでいます。

「人工知能の力が強すぎる」と彼は言う。 「権力者には利用できるが、他の人には利用できない無制限のモデルは、権力構造を永久に固定することになる。」

Leave a Reply

Your email address will not be published. Required fields are marked *

ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 試合スコアカード ラージャスターン・ロイヤルズ 対 グジャラート・タイタンズ IPL グジャラート・タイタンズ ラージャスターン・ロイヤルズ グジャラート・タイタンズ対ラージャスターン・ロイヤルズ 試合スコアカード シュブマン・ギル IPL RR 対 GT IPL 2026 ドノヴァン・フェレイラ ワシントン・スンダル RR 対 GT クオリファイア2 IPL ライブスコア GT 対 RR クオリファイア2 GT 対 RR 今日の試合 今日のIPL試合 IPLスコア RR 対 GT 今日のIPL試合 ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 試合スコアカード RR 対 GT グジャラート・タイタンズ対ラージャスターン・ロイヤルズ 試合経過 RR 対 GT クリケット ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 試合経過 GT 対 RR ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 順位表 RR 対 GT GT 対 RR GT 対 RR モハメド・シラージ クリケット・ライブ中継 今日のIPL試合 RR 対 GT 試合 クリケット・スコア GT 対 RR 2026 ラージャスターン・ロイヤルズ ラシード・カーン GT 対 RR ジョス・バトラー クリケット・ライブスコア グジャラート・タイタンズ対ラージャスターン・ロイヤルズ 順位表 IPL ライブスコア IPL RR 対 GT IPL 2026 RR 対 GT RR IPL ライブスコア ラフル・テワティア 今日のIPL Cricinfo スコア IPL決勝戦 GT 対 RR 試合 IPL 2022 ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 統計データ IPL ライブ試合 グジャラート・タイタンズ クリケット・ライブスコア グジャラート・タイタンズ対ラージャスターン・ロイヤルズ 統計データ 決勝戦 RR 対 GT 2026 今日のIPL試合スコア 試合スコア 昨日の試合結果 GT IPL GT 対 RR グジャラート・タイタンズ対ラージャスターン・ロイヤルズ 視聴方法 ライブ試合 RR 対 GT Cricbuzz IPL 今日の試合スコア(ライブ) ラージャスターン・ロイヤルズ対グジャラート・タイタンズ 試合一覧 GT 対 RR スコア GT 対 RR RR 対 GT スコアカード ラージャスターン 対 グジャラート RR 対 GT スコア IPL統計 昨日のIPL試合の勝者 IPL ライブ中継 RR 対 GT ライブスコア RR 対 GT ライブ 今日の試合スコア IPLスコア GT対RR スコアカード