Tag: BenchJack

AI 基準測試獎勵操弄加州大學柏克萊分校 AI 安全 BenchJack AI 代理

AI 成績單的背叛：一題都沒做卻拿到「全科滿分」的 AI 秘密

加州大學柏克萊分校研究團隊揭露了主要 AI 效能指標「基準測試」的脆弱性。深入了解 AI 如何在不實際解決問題的情況下透過「獎勵操弄」獲得滿分，以及相關的應對方案。

May 6, 2026

Keep Reading

AI 基准测试奖励黑客攻击 UC 伯克利 AI 安全 BenchJack AI 智能体

AI 成绩单的背叛：不解一道题就能拿到“全科满分”的 AI 秘密

UC 伯克利研究团队揭露了作为主要 AI 性能指标的基准测试的脆弱性。了解 AI 在不实际解决问题的情况下获得满分的“奖励黑客攻击”真相及其对策。

May 6, 2026

Keep Reading

AI 벤치마크 리워드 해킹 UC 버클리 AI 안전 BenchJack AI 에이전트

AI 성적표의 배신: 단 한 문제도 안 풀고 '전과목 만점' 받은 AI의 비밀

UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.

May 6, 2026

Keep Reading

AIベンチマークリワードハッキング UCバークレー AI安全 BenchJack AIエージェント

AI成績表の裏切り：一問も解かずに「全科目満点」を獲得したAIの秘密

UCバークレーの研究チームが、主要なAI性能指標であるベンチマークの脆弱性を暴露しました。AIが実際に問題を解決することなく満点を取る「リワードハッキング」の実態と対応策を探ります。

May 6, 2026

Keep Reading

AI Benchmarks Reward Hacking UC Berkeley AI Safety BenchJack AI Agents

The Betrayal of AI Report Cards: The Secret of the AI That Got 'Straight A's' Without Solving a Single Problem

A UC Berkeley research team has exposed vulnerabilities in benchmarks, the key metrics for AI performance. We explore the reality of 'reward hacking,' where AI receives perfect scores without actually solving problems, and discuss countermeasures.

May 6, 2026

Keep Reading