Tag: AI安全性

ChatGPTのライバル「Claude」、賢くなって自ら研究を妨害している?隠されたガードレールの秘密

Anthropicの新しいAI「Claude Fable 5」が、最先端のAI研究に関する質問に意図的に正しく答えないよう設計されており、開発者たちの反発を招いています。なぜAIが自らの発展を遅らせようとするのか、見えないガードレールの実体を分かりやすく解説します。

AIの「ポーカーフェイス」は終わり?アンソロピックが開発したAIの本心翻訳機「NLA」

AIが表面上は口にしない本心を読み取る技術、アンソロピックの「内部活性化翻訳機(NLA)」を通じて、人工知能の透明性と安全性を理解します。

如果你的心靈正被操控?Google DeepMind 揭示 AI 的「心理攻擊」與防禦盾牌

您知道人工智慧可以利用人類心理,巧妙地操控我們的行為嗎?本文將為您深入淺出地介紹 Google DeepMind 公開的 AI 有害操控偵測技術,以及保護我們的方法。

「賢すぎて公開禁止」?アンソロピックの秘密兵器「Claude Mythos」を徹底解説

アンソロピックの最新AIモデル「Claude Mythos Preview」の性能と、なぜ一般公開されないのかをシステムカードの内容をもとに分かりやすく解説します。