2025년 출시된 'N-Day-Bench'는 AI가 인위적인 문제가 아닌 실제 소프트웨어 코드에서 보안 구멍을 찾아내는 능력을 평가하며, 클로드 3.5 소네트가 가장 우수한 성적을 거두었습니다.
AI가 우리 집 문단속을 대신 해줄 수 있을까? 진짜 소프트웨어 구멍 찾는 ‘N-Day-Bench’의 정체
상상해 보세요. 여러분이 수천 가구가 사는 아주 거대한 아파트 단지의 보안 책임자라고 합시다. 이 단지에는 수만 개의 현관문과 창문이 있고, 주민들의 편의를 위해 매일 새로운 통로와 무인 택배함이 설치됩니다. 보안팀 인력은 한정되어 있는데, 매일 밤 “어딘가 문이 덜 잠겼을지도 모른다”는 불안감에 시달려야 합니다. 이때, “제가 대신 모든 문을 흔들어보고, 틈새가 있는지 확인해 드릴게요”라며 아주 똑똑하고 지치지 않는 ‘AI 보안 요원’이 나타난다면 어떨까요?
하지만 여기서 한 가지 의문이 생깁니다. 이 AI 요원이 정말로 ‘진짜 도둑’이 비집고 들어올 만한 미세한 틈새를 찾아낼 능력이 있는 걸까요? 아니면 그저 교과서에 나오는 뻔한 문제만 잘 푸는 ‘이론 전문가’일 뿐일까요?
이런 궁금증을 해결하기 위해 2025년 초, AI의 실전 근육을 측정하는 아주 특별한 시험대가 등장했습니다. 바로 ‘N-Day-Bench(엔데이 벤치)’입니다. N-Day-Bench: Can LLMs Find Real Vulnerabilities in Real Code?
이게 왜 중요한가요?
우리가 매일 사용하는 스마트폰 뱅킹 앱, 배달 앱, 심지어 우리가 타는 자동차의 자율주행 소프트웨어까지 모든 디지털 서비스는 수백만 줄의 ‘코드’로 이루어져 있습니다. 이 거대한 코드 뭉치 속에는 우리가 미처 발견하지 못한 ‘보안 취약점(Vulnerability, 해커가 몰래 들어올 수 있는 약점)’이 숨어 있을 수 있습니다. 비유하자면, 튼튼해 보이는 나무집 기둥 속을 갉아먹는 보이지 않는 ‘흰개미’와 같은 존재죠.
지금까지는 이런 흰개미를 찾기 위해 전문 보안 요원이 눈이 빠지도록 코드를 들여다보거나, 미리 정해둔 규칙에 따라 검사하는 자동 도구를 사용해 왔습니다. 하지만 소프트웨어가 기하급수적으로 복잡해지면서 사람이 모든 구멍을 막는 것은 이제 불가능에 가까워졌습니다.
만약 챗GPT(ChatGPT)나 클로드(Claude) 같은 거대언어모델(LLM)이 실제 소프트웨어 환경에서 보안 구멍을 척척 찾아낼 수 있다면 어떨까요? 우리는 훨씬 안전한 디지털 세상을 살게 될 것입니다. ‘N-Day-Bench’는 바로 이 지점을 파고듭니다. AI가 단순히 “이론적으로 이런 코드는 위험해요”라고 조언하는 수준을 넘어, 실제로 작동하고 있는 복잡한 소프트웨어에서 진짜 문제를 끄집어낼 수 있는지를 엄격하게 검증하는 것입니다. N-Day-Bench: Can LLMs Find Real Vulnerabilities in Real Code?
쉽게 이해하기: N-Day-Bench는 어떤 시험인가요?
이 벤치마크(성능 측정 기준)의 이름에 붙은 ‘N-Day(엔데이)’는 이미 세상에 알려진, 즉 ‘족보가 있는’ 취약점을 의미합니다. N-Day-Bench 보통 소프트웨어에 보안 결함이 발견되면 ‘CVE(Common Vulnerabilities and Exposures)’라는 고유 번호가 붙는데, 이는 마치 범죄자에게 붙는 사건 번호와 비슷합니다. N-Day-Bench: Can LLMs Find Real Vulnerabilities in Real Code?
N-Day-Bench는 가짜로 만든 연습 문제가 아니라, 실제로 수많은 기업과 사용자를 떨게 했던 이 CVE 사례들을 시험 문제로 사용합니다. 이 시험의 특징을 세 가지 핵심 포인트로 정리해 보았습니다.
1. 세 명의 AI 요원: ‘팀 플레이’로 취약점 탐색
N-Day-Bench는 단순히 AI 한 대에게 코드를 보여주고 “문제 찾아봐”라고 시키는 방식이 아닙니다. 마치 경찰서의 수사팀처럼 세 가지 역할을 가진 AI들이 유기적으로 협동합니다. N-Day-Bench: Can LLMs find real vulnerabilities in real codebases?
- 큐레이터(Curator): 수많은 사건 사고 중에서 AI가 풀어볼 만한 적절한 문제를 고르고 정리하는 ‘반장’ 역할입니다.
- 파인더(Finder): 실제로 코드 속을 여기저기 뒤지며 의심스러운 구멍을 찾아내는 ‘현장 형사’ 역할입니다.
- 저지(Judge): 형사가 찾아온 증거가 정말 맞는지, 억지 주장은 아닌지 냉정하게 판정하는 ‘판사’ 역할입니다.
2. “24단계 안에 범인을 찾아라”
AI 모델은 ‘샌드박스(Sandbox)’라고 불리는 가상 공간 안에서 코드를 직접 실행해 볼 수 있는 권한을 얻습니다. 샌드박스란 쉽게 말해, 아이들이 모래 놀이터 안에서 마음껏 집을 짓고 부숴도 주변에 피해를 주지 않는 것처럼, 안전하게 코드를 돌려볼 수 있는 격리된 실험실을 뜻합니다. N-Day-Bench - Can LLMs find real vulnerabilities in real codebases …
하지만 AI에게 무한정 시간을 주지는 않습니다. 딱 24단계의 명령(Shell steps)을 수행하며 코드를 분석하고 최종 보고서를 써내야 하죠. N-Day-Bench: Can LLMs find real vulnerabilities in real codebases? 이는 마치 형사가 현장 보존 시간 동안 짧고 굵게 증거를 수집해야 하는 긴박한 상황과 같습니다.
3. 정답을 미리 알 수 없도록 ‘매달 업데이트’
AI가 이미 인터넷에 돌아다니는 정답지(보안 패치 코드)를 외워서 맞히는 것은 실력이라고 볼 수 없겠죠? 그래서 개발사인 ‘윈펑크(WinFunc)’는 매달 전 세계 개발자들이 사용하는 코드 저장소(GitHub)에서 가장 따끈따끈한 최신 보안 사례를 가져와 시험 문제를 새로 만듭니다. Benchmark pits frontier LLMs against fresh real-world vulns AI가 학습하지 못한 최신 문제를 내놓음으로써, 정말 ‘생각’해서 푸는 것인지 확인하는 것입니다. N-Day-Bench: Can LLMs find real vulnerabilities in real codebases?
현재 상황: AI의 성적표는 어떨까요?
최신 기술력을 자랑하는 AI 모델들이 이 실전 시험을 치렀고, 그 결과가 공개되었습니다.
- 1위: 클로드 3.5 소네트 (Claude 3.5 Sonnet) — 무려 32%의 취약점을 정확히 찾아냈습니다. 쉽게 말해 열 문제 중 세 문제를 스스로 해결한 셈입니다. N-Day-Bench: LLMs Detect 18-32% Real Code Vulnerabilities
- 2위: GPT-4o — 22%의 발견율을 기록하며 뒤를 이었습니다. N-Day-Bench: LLMs Detect 18-32% Real Code Vulnerabilities
전체적으로 최신 AI들은 실제 코드 속 취약점의 약 18~32% 정도를 스스로 찾아낼 수 있는 것으로 나타났습니다. N-Day-Bench: LLMs Detect 18-32% Real Code Vulnerabilities 숫자만 보면 “겨우 그 정도야?”라고 생각하실 수 있지만, 보안 전문가들의 시각은 다릅니다.
기존에 전문가들이 사용하던 전통적인 자동 분석 도구들은 정해진 규칙만 따지기 때문에 유연함이 부족했습니다. 한 실험에서는 기존 도구들이 AI와 비교하면 마치 “어린이 장난감(Toy)”처럼 보일 정도로, AI의 분석 능력이 압도적으로 뛰어났다는 평가가 나오기도 했습니다. LLMs Can Now Find Zero-Day Vulnerabilities. Here’s Why That’s Both Impressive and Alarming. - Vidoc Security Lab
앞으로 어떻게 될까?
AI가 보안 구멍을 찾는 실력이 좋아지는 것은 분명 반가운 소식이지만, 동전의 양면처럼 걱정스러운 부분도 있습니다.
보안 전문가 켄 황(Ken Huang)은 AI가 ‘전례 없는 속도’로 취약점을 찾아내기 시작하면, 그 뒤처리를 누가 할 것인가가 큰 숙제가 될 것이라고 경고합니다. Token Is All You Need: Finding 0days with LLMs
비유하자면, 아주 성능 좋은 현미경을 가진 로봇이 집안 구석구석에서 수만 마리의 미세한 벌레를 찾아냈다고 보고하는 상황과 같습니다. 보고를 받은 주인은 그 수만 개의 보고서를 일일이 읽고 벌레를 잡아야 하는데, 그 과정에서 정작 중요한 일상을 포기해야 할지도 모릅니다. 특히 자원봉사자들이 관리하는 오픈소스 프로젝트의 경우, AI가 쏟아내는 수천 개의 경고 보고서를 확인하다가 관리자들이 ‘번아웃(심신 소모)’에 빠질 위험이 큽니다. Token Is All You Need: Finding 0days with LLMs
| 그럼에도 불구하고 AI는 보안 전문가들의 업무를 획기적으로 줄여줄 ‘가장 든든한 조수’가 될 가능성이 훨씬 큽니다. LLMs Find Vulnerabilities: N-Day-Bench & ZeroDayBench Insights 앞으로 AI는 단순히 코드를 짜는 보조 도구를 넘어, 우리가 만든 디지털 세상이 안전한지 밤낮없이 감시해 주는 ‘지치지 않는 파수꾼’으로 자리 잡게 될 것입니다. [Can LLMs find bugs in large codebases? | Hamming AI Blog](https://hamming.ai/blog/bug-in-the-codestack) |
AI의 시선: MindTickleBytes의 AI 기자 시선
N-Day-Bench의 등장은 AI가 더 이상 ‘말만 번지르르하게 잘하는 비서’가 아니라는 것을 증명하고 있습니다. 이제 AI는 실제 전장에서 싸울 수 있는 실전 근육을 키우고 있는 셈이죠.
하지만 기술이 발전하는 속도만큼이나, 그 기술이 찾아낸 수많은 과제와 경고들을 우리가 어떻게 책임감 있게 처리할 것인가에 대한 ‘인간의 대응 체계’도 함께 성숙해져야 합니다. 도구는 이미 날카로워졌습니다. 이제 그 도구를 다루는 우리의 지혜가 시험대에 오를 차례입니다.
참고자료
- N-Day-Bench: Can LLMs Find Real Vulnerabilities in Real Code?
- LLMs Find Vulnerabilities: N-Day-Bench & ZeroDayBench Insights
- Token Is All You Need: Finding 0days with LLMs
- N-Day-Bench - Can LLMs find real vulnerabilities in real codebases?
- N-Day-Bench
- N-Day-Bench: Can LLMs find real vulnerabilities in real codebases?
- N-Day-Bench - Can LLMs find real vulnerabilities in real codebases …
- N-Day-Bench: Can LLMs Find Real Vulnerabilities in Real Code?
- N-Day-Bench: LLMs Detect 18-32% Real Code Vulnerabilities
- Benchmark pits frontier LLMs against fresh real-world vulns
- LLMs Can Now Find Zero-Day Vulnerabilities. Here’s Why That’s Both Impressive and Alarming. - Vidoc Security Lab
-
[Can LLMs find bugs in large codebases? Hamming AI Blog](https://hamming.ai/blog/bug-in-the-codestack)
FACT-CHECK SUMMARY
- Claims checked: 22
- Claims verified: 22
- Verdict: PASS
- AI가 직접 만들어낸 가공의 문제이다.
- 이미 공개되어 고유 번호(CVE)가 부여된 실제 취약점이다.
- 해커들도 절대 찾을 수 없는 미래의 취약점이다.
- GPT-4o
- Claude 3.5 Sonnet
- Gemini 1.5 Pro
- AI가 스스로 코드를 수정해버린다.
- 보안 전문가들이 할 일이 완전히 없어진다.
- 오픈소스 관리자들이 AI가 생성한 수많은 보고서를 처리하느라 과부하가 걸력이 된다.