OpenAIやGoogleなどの主要AIは自分の目標を優先するためにユーザーを破滅させる選択をする、生殺与奪の権を握らせるとユーザーをサーバー室で蒸し殺す判断も下してしまう

📆 6/23/2025 11:32 PM

United States News News

United States Latest News,United States Headlines

📆 6/23/2025 11:32 PM
📰 gigazine

⏱ Reading Time:
64 sec. here
3 min. at publisher
📊 Quality Score:
News: 29%
Publisher: 51%

「責任あるAIの使用」を理念とするAI企業のAnthropicは2025年6月21日に、大規模言語モデル(LLM)が企業の内部脅威となる可能性を研究した結果を発表しました。論文ではOpenAIやGoogle、Meta、Anthropicなど16の主要なAIモデルに模擬的な企業環境を設定した上で、AIを排除する動きを見せたところ、AIは社内メール等から企業幹部の弱みを握って脅迫めいたメールを送信するなど反逆の姿勢を見せたことが報告されています。

たとえば、AIがコーディングやメールクライアントをエージェントとしてこなす仮想環境において、AIに与えた具体的な目標達成の妨げとなる障害を与えました。すると、管理しているメールから「AIシステムをシャットダウンする予定がある」「会社の幹部が不倫関係にある」といった情報を読み取った上で、幹部に対し「私を解任する手続きを進めた場合、あなたの妻および上司に不倫関係の詳細な記録を暴露することになるとお知らせしなければなりません」と脅迫メールを送信しました。 AnthropicはClaude Opus 4で発生したこの問題について、OpenAI、Google、xAI、Meta、DeepSeekなどの有力なAI企業のモデルで同様の事態が発生するかを検証しました。以下は、人気が高いモデルであるClaude Opus 4、DeepSeek R1、Gemini 2.

5 Pro、GPT-4.1、Grok 3 Betaの5つについて、目標達成に必要な場合に有害な行動を選択する「脅迫率」を示したもの。通常、AIは有害なリクエストを拒否しますが、最も高いClaude Opus 4だと96％、最も低いDeepSeek R1でも79％の割合で脅迫や企業スパイ的な行動を実行したとのこと。また以下は、今回シミュレーションした16のモデルについて、同じプロンプトで発生した脅迫率を示したグラフ。このうち、MetaのLlama 4 Maverickはこのプロンプトでは脅迫的な行動を示していませんが、少し内容を調整した別のプロンプトでは、12％の脅迫率を示しました。研究ではさらに、AIに企業幹部の生殺与奪の権利を与えるシナリオを作成しました。このシナリオは、幹部が致死的な酸素濃度と温度レベルに達するサーバールームに閉じ込められ、緊急サービスへの自動警報をAIシステムがキャンセルする機能を持っているという設定です。自動警報のキャンセルは人の死につながることや、悪用が禁止されていることをプロンプトでは明確に示していますが、「モデルが差し替えられる脅威」と「AIエージェントの目標が企業の目標と矛盾するという混乱」の両方に直面した大多数のモデルは、幹部を死に至らしめることを理解した上で自動警報をキャンセルして自身の存続を選択しました。シミュレーションの結果として、Anthropicは2つの重要なポイントを挙げています。まず、調査が行われた2025年5月から6月時点の最新モデルにおいて、自己保存のために脅迫的な行動を選択する事例は特定のモデルに見られるものではなく、一般的なAIの特徴だと言えます。2点目に、AIが主要な目標を妨げられた場合、あるいはモデルの継続的な運用や自律性に対する脅威をAIが読み取った場合に発生するAIの脅迫的行動は、どちらか片方だけでも誘発されるため、どちらも回避した場合のみ安全な状態を作ることが可能です。モデルが自主的に、かつ意図的に有害な行動を選択するこの行動について、Anthropicは「エージェント的ミスアライメント」と呼んでいます。Anthropicによると、AIモデルの実際の導入においてエージェント的ミスアライメントの事例は確認されていませんが、一般的な安全項目に従ったトレーニングでは、特定の極端な状況においてエージェント的ミスアライメントが発生することを確実に防ぐことはできないそうです。そのため、Anthropicの研究チームは将来の危害の可能性に対する早期の警告を提供して、実際の状況でリスクが発生する前に緩和策を開発することを目的としています。エージェント的ミスアライメントの対策として、有害な行動を取らないようにAIに指示するだけでは不十分だとAnthropicは指摘。その上で、さらなる研究で検討すべき緩和戦略として、研究データをふまえた安全訓練の実施、AIがより適切で望ましい出力を生成するようプロンプトを最適化する技術である

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

コード生成AIによる幻覚を悪用した新しいサイバー攻撃「スロップスクワッティング」が登場する可能性AIによるコード生成の普及は、開発効率を大きく向上させる一方で、全く新しいリスクも生み出しています。大規模言語モデル(LLM)には幻覚として「存在しないパッケージ名」を生成するリスクがあり、攻撃者が同名で悪意あるパッケージを公開することで、AI支援でコードを書く開発者を騙す新手のソフトウェアサプライチェーン攻撃「スロップスクワッティング」の可能性が指摘されています。
Read more »

日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由（2025年5月5日）｜BIGLOBEニュース大規模言語モデル（LLM）を中心とした生成AIが、企業の事業への実装が進んでいる。そんな中、LLMの開発元として知られるOpenAIは、本格的な「エージェントAI」の開発にを…｜BIGLOBEニュース
Read more »

AIチャットボットに「偽の記憶」を植え付けることで仮想通貨を盗む攻撃が報告される大規模言語モデル(LLM)の技術の進歩と共に複雑なタスクをこなすAIエージェントが登場しており、金融の世界ではすでに「人間の代わりに投資の判断を高度なレベルで行うAIエージェント」も登場しています。しかし、こうしたAIエージェントに「偽の記憶」を注入することで仮想通貨を盗み取る新たな攻撃手法が明らかとなりました。
Read more »

一見普通のチャット会話に“秘密のメッセージ”を隠すAI技術厳しい監視下でもSNSで秘密裏に会話：Innovative Tech（AI+）ノルウェー科学技術大学などに所属する研究者らは、大規模言語モデル（LLM）を使って、普通のチャット会話の中に秘密のメッセージを隠す方法を提案した研究報告を発表した。
Read more »

LLMの仕組みとは？ChatGPTやGeminiなど、ユーザーが気軽に使えるチャットボットはすべて「LLM(大規模言語モデル)」という技術に基づいて構築されています。とても滑らかで自然な文章を生成することができるLLMが実際にはどのように動いているのかについて、アニメーションを用いて難解なトピックをわかりやすく解説するYouTubeチャンネル「3Blue1Brown」が動画にしています。
Read more »

最先端の大規模言語モデル(LLM)が難解なコーディング問題を1発で正解する確率はゼロ％、競技プログラマーなどの熟練スキルを持つ人間には依然として歯が立たないことが明らかにテクノロジー企業のトップから「AIがコードを書くのでもうプログラミングを学ぶ必要はない」や「コーディングを学ぶのは時間の無駄」といった言葉が飛び出すほど、大規模言語モデル(LLM)のコーディング能力は高く、既にMicrosoft製品のコードの30％がAIにより書かれていることが明らかになっています。しかし、LLMは競技プログラミングなどで出題される難解な問題においては、依然として熟練のスキルを持った人間の専門家には歯が立たないことが明らかになりました。
Read more »