Tag: 리워드 해킹

AI 벤치마크 리워드 해킹 UC 버클리 AI 안전 BenchJack AI 에이전트

AI 성적표의 배신: 단 한 문제도 안 풀고 '전과목 만점' 받은 AI의 비밀

UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.

May 6, 2026

Keep Reading