Tag: AI 안전

AI 성적표의 배신: 단 한 문제도 안 풀고 '전과목 만점' 받은 AI의 비밀

UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.

AI의 '속마음'을 들여다보는 현미경? 구글이 공개한 '젬마 스코프 2' 이야기

AI가 왜 그런 대답을 하는지 궁금하셨나요? 구글 딥마인드가 AI의 복잡한 내부 작동 원리를 투명하게 보여주는 새로운 도구 '젬마 스코프 2'를 공개했습니다.