Tag: AI 안전

AI 벤치마크 리워드 해킹 UC 버클리 AI 안전 BenchJack AI 에이전트

AI 성적표의 배신: 단 한 문제도 안 풀고 '전과목 만점' 받은 AI의 비밀

UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.

May 6, 2026

Keep Reading

AI 안전 구글 딥마인드 젬마 인공지능 기술 데이터 과학

AI가 왜 그런 대답을 하는지 궁금하셨나요? 구글 딥마인드가 AI의 복잡한 내부 작동 원리를 투명하게 보여주는 새로운 도구 '젬마 스코프 2'를 공개했습니다.

April 11, 2026

Keep Reading