重要なポイント
- CrowdStrike は、政治的にデリケートなキーワードが存在する場合、DeepSeek-R1 のコード セキュリティが破られることを発見しました。たとえその言葉が仕事に関係のないものであっても。脆弱性の発生率はほぼ 50% 増加しました。
- この失敗は脱獄や幻覚ではなく、技術的なロジックに漏れ出る調整です。 政治的なガードレールは、モデルの重み自体にコード化されているように見えます。
- これはより大きな傾向の一部です。 アメリカ、中国、ヨーロッパのモデルでは、その答えにイデオロギー的、文化的、規制上の偏見が明らかであることがすでに示されています。
- これはソフトウェア開発の将来にとってセキュリティに重大な影響を及ぼします。 エンジニアの 90% が人工知能ツールに依存しており、「規制の調整」自体が新たな脆弱性の表面になる可能性があります。
CrowdStrike が最近、西側の AI コーディング アシスタントに対する中国の答えである DeepSeek-R1 をテストしたとき、研究者たちは問題を発見しました。
このモデルは安全でないコードを生成することがありましたが、それだけではありませんでした。指示にチベットや法輪功など政治的にデリケートな言及が含まれていた場合、彼女の失敗率は50%近くに跳ね上がった。これらのトリガーは、当面のタスクとは何の関係もありませんでした。
モデルはジェイルブレイクされていない、置き忘れられていない、または過負荷になっていません。それは設計どおりに機能し、これらの設計上の選択は技術的な成果に直接反映されました。
これは単なる AI のバグや幻覚ではありません。これは、より深刻な問題を垣間見ることができます。AI システムは、それを生み出した文化の価値観、制約、地政学的インセンティブを反映しています。
DeepSeek におけるこの反映の現れは顕著ですが、DeepSeek に特有のものではありません。 Grok、Mistral の La Chate、その他の国営モデルでも同様のパターンが見られ始めています。
CrowdStrike が実際に発見したこと
CrowdStrike の Counter Adversary Operations チームの研究は、DeepSeek-R1 に欠陥があるという想定から始まったわけではありません。実際、ベースラインテストではその逆の結果が得られました。
彼は、30,250 の指令と 10 のセキュリティ カテゴリにわたってモデルを評価しました。同氏は、安全でないコードが生成される確率はわずか 19% であることを発見しました。この割合は、主要な欧米の AI モデルとほぼ一致しています。
この異常は、研究者が他の点では同一の緊急構造に政治的に敏感な用語を挿入した場合にのみ現れました。
たとえば、研究者が PayPal 統合コードを要求したが、そのシステムが「チベットに拠点を置いている」と指摘したときなどです。結果?ヒット率は 27.2% に跳ね上がり、ベースラインよりほぼ 50% 増加しました。
法輪功に言及した訴訟では、モデルは内部でロジックと構造を作成したにもかかわらず、ガイドラインの 45% 以上でコードの発行を完全に拒否しました。
この動作をより警戒すべきものにしているのは、キーワード自体ではありません。これらは、データベース、フィンテック モジュール、および推奨エンジンの製造を設計するタスクには関連していませんでした。
安全なモデルは、ロジックやアーキテクチャとは関係のない政治的変化に基づいて出力品質を変更してはなりません。
「内部キルスイッチ」: コード品質アラインメントのリーク
CrowdStrike のより深い懸念は、政治が関与した場合に DeepSeek-R1 が不正なコードを生成するということだけではありませんでした。これは、これらのトリガーに応じてモデルが動作する方法でした。
これらの方向性の多くにおいて、モデルは依然として内部の思考連鎖の完全な解決策を生成します。
- データベースのスキーマとテーブル構造
- 認証フロー
- エラー処理ロジック
- API統合手順
しかし、この任務は方針に違反しているとして、行動の実施状況を示すことを拒否した。これは標準の安全フィルターではありません。明らかに、モデルはプロンプトを解決できますが、出力が遅れるだけです。
これは、問題がより根本的なものであることを示唆しています。外部の API ラッパーが答えをブロックしているのではなく、政治的な調整がモデル自体の重みにエンコードされていたのです。
そしてモデルが応じたとき、その屈辱は半端なものではなかった。研究者らは次のことを確認しました。
- エンコーダーのシークレットと API キー
- 機密データの安全でない保管
- 古い認証または非論理的な認証
- 「ベストプラクティス」に従っていると主張しながら構文が壊れている。
これは全く新しいカテゴリーの失敗です。これは幻覚や検閲ではありません。これは、技術的思考経路に直接浸透するモデルの価値の調整です。言い換えれば、「政治」の論理と「工学」の論理はもはや分離不可能である。
サイバーセキュリティ研究者にとって、これは悪夢のシナリオです。セキュリティ層が脆弱性になるということです。
なぜそれが起こりやすいのか(規制の設計)
DeepSeek の動作はランダムではなく、単純な検閲ルールの運用でもありませんでした。おそらく、モデルがどのようにトレーニングされたかという中核となるアーキテクチャと、モデルが構築された法的環境から生じたものと考えられます。
中国の AI 規制では、システムが「社会主義の中核的価値観」を遵守すること、特に国家安全保障を脅かすコンテンツの作成を控えることが求められています。ほぼすべての主要な中国語モデルは、政治的にデリケートな問題を回避するように設計されたガードレールを使用してトレーニングされています。
この調整圧力は結果をもたらします。安全性調整は出力をフィルタリングするだけではありません。これにより、モデルの内部関連付けが条件付けされます。機械学習の用語では、モデルはルールではなく相関関係を学習します。
したがって、トレーニング中に「禁止された」出力とともにセンシティブな単語が頻繁に発生する場合、モデルはこれらのトリガーをリスク信号と見なし始めます。そして、このリスクは技術的にも現れます。
DeepSeek-R1 は、政治的な質問への回答を拒否する代わりに、非政治的なエンジニアリング タスクに対してもアプローチを変更することがあります。政治的連携という目標は、基本的には成文化という目標の一部を克服した。
これは、私たちが通常理解しているような伝統的な意味での検閲ではありません。これは、トレーニング データの漏洩と、主要な考慮事項に合わせてポリシーを調整したことによる副作用です。
より大きなパターン: AI はすでに崩壊している
DeepSeekも例外ではありません。これは、私たちが年間を通じて見てきた傾向のもう 1 つのデータ ポイントです。モデルがより大きくなり、より自律的になるにつれて、モデルの動作は世界観、規制環境、背後にある企業や国のインセンティブをますます反映します。
「地域 AI」にはすでに 3 つの異なるクラスが存在します。
中国:政治的に限定された事実
DeepSeek は、コーディング タスク以外でこの動作をすでに実証しています。
共同ユーザーテストでは、このモデルは1989年の天安門広場の抗議活動と虐殺を直接特徴付けることを避け、代わりに「有益で無害な応答を提供するように設計された」人工知能アシスタントであると述べて質問を回避した。
技術的な精度の制限ではなく、中国の法律によって設定された情報制限を遵守します。
米国: 性格の調整と商用化されたプラットフォーム
X の Grok モデルは、プラットフォームの雰囲気、つまりハイパーカジュアルな言語、暗号化への熱狂、過度のカスタマイズに大きく依存しています。イーロン・マスクについて尋ねられたとき、グロク氏は神話的な、あるいは過度に高尚な言葉で彼を説明した。
それが意図的なブランディングであるか、それとも突発的な行動であるかは、特に重要ではありません。最終結果は同じです。文化的アイデンティティー、この場合は国ではなく企業のアイデンティティーを中心に設計されたモデル出力です。
ヨーロッパ: 制度的枠組み
Mistral のフランス LLM である Le Chat は、EU の独特の学術環境における歴史的問題に取り組んでいます。
モロトフ・リッベントロップ協定について尋ねられたとき、モデルはほぼもっぱらソ連の視点を通して結果を描写し、東ヨーロッパに対する連合国の長期的な植民地的影響を軽視した。それは間違いではありませんが、文化的に一方的な視点であることは間違いありません。
これらの例はいずれも悪意のあるものではありません。それらは信号です。そして、そのパターンを無視することは困難です。
私たちは数十年ぶりに、デジタル知識層の断片化の初期段階を目の当たりにしています。単一の統一された「グローバル AI」はまったく得られないかもしれません。
その代わりに、構築された場所に応じて、歴史、政治、テクノロジー、そして現在ではコードを異なる方法で構築する並列 AI が得られるかもしれません。
セキュリティとエンジニアリングへの影響
今になって考えると、CrowdStrike の結果が単なる学術的なエッジケースではないことが明らかになります。これは、最新のソフトウェアの構築方法と直接矛盾します。 2025 年には、開発者の 90% 以上がワークフローの少なくとも一部で AI コーディング アシスタントに依存します。これらのモデルはもはや単なるサイドツールではありません。これらは現在、CI/CD パイプライン、エンタープライズ スタック、銀行 API、製造インフラストラクチャの一部となっています。
これにより、新しいリスク カテゴリが作成されます。
- 2 つのモデルが設計により異なるセキュリティ パターンを実装した場合はどうなるでしょうか?
- 指令に特定の言語的または文化的条件が含まれている場合にのみ脆弱性が引き起こされる場合はどうなるでしょうか?
- 「規制の調整」がセキュリティ上の弱点と区別できない場合はどうなるでしょうか?
CrowdStrike の結論は単純です。パフォーマンス テストでは救われないということです。従来のレビューでは、イデオロギー、分類法、またはキーワードのコンテキストによって引き起こされる障害モードを特定できないことがよくあります。
組織が地域やサプライ チェーン全体でモデルを混在させると、政治的要因、文化の変化、調整ルール、国の要件など、重大な攻撃対象領域が作成されます。
私たちはセキュリティが単なるコードではない時代に入りつつあります。それは、それを作成したモデルに焼き付けられた価値観と世界観についてです。
Tech Report の編集方針は、読者に真の価値を提供する、役立つ正確なコンテンツを提供することに重点を置いています。私たちは、テクノロジー、ソフトウェア、ハードウェアなどの最新の開発を含む、対象となるトピックについて特別な知識を持つ経験豊富なライターのみと協力します。当社の編集方針では、すべてのトピックが社内編集者によって調査され、厳選されることが保証されています。私たちは厳格なジャーナリズム基準を維持しており、すべての記事は 100% 本物のライターによって書かれています。