Tag: AIベンチマーク

AIベンチマークリワードハッキング UCバークレー AI安全 BenchJack AIエージェント

AI成績表の裏切り：一問も解かずに「全科目満点」を獲得したAIの秘密

UCバークレーの研究チームが、主要なAI性能指標であるベンチマークの脆弱性を暴露しました。AIが実際に問題を解決することなく満点を取る「リワードハッキング」の実態と対応策を探ります。

May 6, 2026

Keep Reading

人工知能 AIベンチマーク大規模言語モデル LLM 技術トレンド

AIが毎回異なる回答を出す「非決定論的」な特性と、それを解決するために登場した新しい性能測定基準（ベンチマーク）を分かりやすく解説します。

May 4, 2026

Keep Reading