AI 성적표의 배신: 단 한 문제도 안 풀고 '전과목 만점' 받은 AI의 비밀
UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.
UC 버클리 연구팀이 주요 AI 성능 지표인 벤치마크의 취약점을 폭로했습니다. AI가 실제로 문제를 해결하지 않고도 만점을 받는 '리워드 해킹'의 실체와 대응 방안을 알아봅니다.
AI가 사람처럼 브라우저를 직접 제어하며 스스로 문제를 해결하는 기술, 브라우저 하네스(Browser Harness)의 원리와 미래를 알기 쉽게 설명합니다.
추가 설치 없이 실행되는 초소형 AI 코딩 에이전트 Pu.sh를 소개합니다. 400줄의 코드가 어떻게 AI의 조종석이 되는지 알아보세요.
구글의 새로운 AI 모델 제미나이 2.0이 모두에게 공개되었습니다. 제미나이 2.0 플래시, 프로, 라이트 버전의 차이점과 무료 사용법을 일반인도 알기 쉽게 설명해 드립니다.