AI는 어떻게 우리의 '속마음'을 알아맞힐까? 스스로 학습하는 AI를 위한 새로운 시험 무대

눈을 가린 로봇 요리사가 심사위원에게 자신이 만든 요리를 선보이며 긴장된 모습으로 평가를 기다리는 일러스트
AI Summary

역방향 채점 기준 최적화(IRO)는 제한된 기회 속에서 까다로운 심사위원의 숨겨진 취향을 파악해 내는 능력을 평가함으로써, 스스로 행동하는 AI 에이전트의 지능을 측정하는 새로운 테스트 환경입니다.

상상해보세요. 여러분이 최고급 미슐랭 3스타 레스토랑에 새로 부임한 수석 셰프라고 가정해 봅시다. 이 레스토랑에는 아주 까다롭고 속마음을 절대 겉으로 드러내지 않는 전설적인 음식 평론가가 주기적으로 방문합니다. 이 평론가는 자신이 어떤 맛을 좋아하는지, 소금은 얼마나 들어가야 하는지, 향신료는 무엇을 선호하는지 절대 직접 말해주지 않습니다.

여러분이 할 수 있는 유일한 방법은 직접 요리를 만들어 그에게 대접해 보는 것뿐입니다. 하지만 문제가 하나 있습니다. 레스토랑의 재정 상태 때문에, 평론가에게 평가를 부탁할 수 있는 기회는 단 다섯 번으로 제한되어 있습니다. 이 다섯 번의 기회 동안 여러분은 메뉴를 조금씩 바꿔가며 “이건 너무 짠가요?”, “이건 마음에 드시나요?”라고 반응을 살펴야 합니다. 그리고 마지막 여섯 번째에는 반드시 평론가의 입맛에 100% 완벽하게 들어맞는 최고의 만찬을 내놓아야만 레스토랑의 별을 유지할 수 있습니다.

단 다섯 번의 피드백만으로 한 번도 본 적 없는 완벽한 레시피를 역추적해서 만들어내는 과정. 이것이 바로 오늘 우리가 알아볼 최신 인공지능 기술의 핵심이자, 기계가 진정한 의미의 ‘눈치’를 배우는 방법입니다.

이게 왜 중요한가요? (Why It Matters)

최근 인공지능 분야에서는 단순한 챗봇(Chatbot)을 넘어, 스스로 상황을 판단하고 행동하는 ‘에이전트(Agent)’의 시대가 열리고 있습니다. 과거의 AI가 우리가 질문하면 대답만 해주는 ‘똑똑한 백과사전’이었다면, 에이전트는 다릅니다. 쉽게 말해서, “내일 파리 출장 갈 건데 일정 좀 짜고 비행기표도 알아서 예약해 줘”라고 말하면 스스로 웹사이트를 검색하고, 예산을 비교하고, 최적의 선택을 내려 결제까지 진행하는 ‘능동적인 비서’인 셈이죠.

실제로 2023년 세계적인 인공지능 학회인 신경정보처리시스템학회(NeurIPS)에서는 거대언어모델(LLM)을 기반으로 한 자율 에이전트(Autonomous Agents)가 핵심 주제로 다뤄지며 큰 주목을 받았습니다 [[NeurIPS 2023] 거대언어모델 기반 자율 에이전트 (Large Language Model-based Autonomous Agents) - LG AI Research BLOG](https://www.lgresearch.ai/blog/view?seq=393).

이제 AI 에이전트는 단순히 인간의 일상적인 비서 역할을 넘어서, 고도의 과학 연구 영역까지 진입하고 있습니다. 최근 연구에 따르면, 최신 LLM 기반의 과학 에이전트들은 가설을 스스로 생성하고, 실험을 설계하며, 방대한 데이터를 분석하고 시뮬레이션하는 등 극도로 복잡한 과학적 발견 과정까지 자동화하기 시작했습니다 [[2503.24047] Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents](https://arxiv.org/abs/2503.24047). 또한 가상의 AI 에이전트 수천 명을 모아놓고 인간 사회의 행동 방식을 시뮬레이션하는 거대한 실험 환경이 구축되기도 했습니다 [AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society](https://arxiv.org/html/2502.08691v1).

그런데 여기서 아주 치명적인 문제가 하나 발생합니다. “과연 이 AI 에이전트가 진짜로 일을 잘하고 있는지, 얼마나 똑똑한지 어떻게 평가할 것인가?” 하는 점입니다.

과거에는 AI에게 수학 문제나 객관식 문제를 풀게 해서 점수를 매기면 그만이었습니다. 1 더하기 1은 2라는 명확한 정답이 있으니까요. 하지만 스스로 움직이는 에이전트를 평가하는 것은 전혀 다른 차원의 이야기입니다. 이는 마치 신입사원의 업무 능력을 평가하는 것과 같아서, 정해진 단 하나의 정답이 없는 경우가 많기 때문입니다 [[2503.16416] Survey on Evaluation of LLM-based Agents](https://arxiv.org/abs/2503.16416). 인간의 모호한 취향, 시시각각 변하는 복잡한 현실 세계 속에서 AI가 얼마나 빠르고 정확하게 사용자의 ‘진짜 의도’를 파악하는지 측정할 수 있는 정교한 시험 무대가 절실히 필요해진 것입니다.

쉽게 이해하기 (The Explainer)

이러한 평가의 어려움을 해결하기 위해 AI 연구진들이 새롭게 고안해 낸 기발한 테스트 환경이 있습니다. 바로 ‘역방향 채점 기준 최적화(Inverse Rubric Optimization, 이하 IRO)’입니다 [Inverse Rubric Optimization: A testbed for agent science](https://fulcrum.inc/2026/06/09/inverse-rubric-optimization.html). 이름이 다소 학술적이고 복잡해 보이지만, 앞서 서두에서 말씀드린 ‘셰프와 까다로운 음식 평론가’의 상황을 떠올리시면 이해가 쉽습니다.

비유하면, 이 기술은 AI를 훈련시키고 평가하기 위한 가상의 장애물 코스라고 할 수 있습니다. 이 기술을 세 가지 핵심 개념으로 나누어 하나하나 뜯어보겠습니다.

1. 블랙박스 심사위원 (Black-box Judge)

컴퓨터 공학에서 ‘블랙박스(Black-box)’란 내부 구조가 어떻게 생겼는지 전혀 볼 수 없는 까만 상자를 의미합니다. 무언가를 집어넣으면 결과가 나오긴 하는데, 도대체 안에서 어떤 기준과 계산을 통해 그런 결과가 나왔는지 알 수 없는 상태죠. IRO 테스트 환경에서 AI 에이전트는 자신이 도달해야 할 최종 목표나 규칙(채점 기준)을 전혀 알지 못합니다. 에이전트에게 정답을 숨기고 있는 이 까탈스러운 존재를 ‘블랙박스 심사위원’이라고 부릅니다 [Inverse Rubric Optimization: A testbed for agent science](https://vuink.com/post/shypehz-d-dvap/2026/06/09/inverse-rubric-optimization-d-dhtml). 마치 셰프에게 절대 레시피를 알려주지 않고 “음, 이건 향이 별로네”, “이건 식감이 좀 낫네”라고만 단답형으로 말하는 평론가와 똑같습니다.

2. 라벨 예산 (Label Budget)

에이전트가 무한정 질문을 던지며 실패를 반복할 수 있다면, 결국에는 누군가의 취향을 알아낼 수 있을 것입니다. 하지만 현실에서 우리는 비서에게 백 번 천 번 똑같은 일을 시키며 기다려주지 않습니다. 돈과 시간이라는 명확한 제약이 존재하죠. 이를 흉내 내기 위해 IRO는 에이전트에게 ‘라벨 예산(Label Budget)’이라는 엄격한 제약을 둡니다 [逆向评分标准优化:智能体科学的测试平台](https://memedata.com/post/125636). 쉽게 말해 에이전트가 심사위원에게 자신이 한 행동이 맞는지 틀렸는지(정답 라벨) 물어볼 수 있는 코인이 딱 정해져 있는 것입니다. 셰프가 요리를 대접할 수 있는 기회가 단 5번뿐인 것과 같습니다. 제한된 예산을 어떻게 효율적으로 쓸지가 에이전트의 진짜 실력입니다.

3. 역방향 추론 (Inverse Optimization)

일반적인 순방향 최적화는 “소금을 10g 넣고, 고기는 미디엄 레어로 구워라”라는 명확한 지시(Rubric)를 주고 그것을 얼마나 잘 따르는지 확인하는 것입니다. 반면 ‘역방향(Inverse)’은 결과(평론가의 피드백)를 먼저 보고, 거꾸로 원인(숨겨진 레시피와 취향)을 추론해 내는 과정입니다.

자동차 산업에 비유해보겠습니다. IRO는 비행기나 자동차를 새로 개발할 때 바람의 저항을 극한으로 테스트하는 ‘풍동 실험장(Wind Tunnel)’이나, 자율주행 자동차의 안전성을 검증하는 ‘얼음판 장애물 주행 코스’와 같습니다. 자동차 엔진이 아무리 1,000마력을 낸다고 해도 얼음판에서 제때 멈추지 못하면 소용이 없듯, 언어 모델의 지식이 아무리 방대해도 제한된 기회 속에 인간의 숨겨진 의도를 파악하지 못하면 훌륭한 비서(에이전트)가 될 수 없습니다. IRO는 바로 이 ‘상황 파악 능력’을 테스트하는 전용 훈련장입니다.

현재 상황 (Where We Stand)

이 매력적이고 도전적인 개념은 zef, leni, kaivu, rohuang이라는 네 명의 연구진에 의해 체계화되어 학계에 제안되었습니다 [Inverse Rubric Optimization: A testbed for agent science ...](https://www.lesswrong.com/posts/uSighG5zWbmtBembc/inverse-rubric-optimization-a-testbed-for-agent-science). 이들은 IRO 환경이 단순히 에이전트의 현재 실력을 테스트하는 것을 넘어, 에이전트 과학(Agent Science) 자체를 근본적으로 발전시키는 훌륭한 기반이 될 것이라고 관측했습니다.

연구진이 IRO를 최고의 테스트베드(실험 환경)로 꼽는 이유는 크게 두 가지입니다.

첫째, IRO는 AI 에이전트에게서 ‘풍부한 행동(Rich behavior)’을 이끌어냅니다 [Inverse Rubric Optimization: A testbed for agent science](https://fulcrum.inc/2026/06/09/inverse-rubric-optimization.html). 단순히 A 아니면 B를 찍는 객관식 문제와 달리, 예산이 제한된 상황에서 심사위원의 마음을 읽으려면 AI는 고도로 전략적인 선택을 해야 합니다. “첫 번째 질문으로는 가장 넓은 범위를 물어보고, 두 번째 질문으로는 세부적인 것을 좁혀가야겠다”는 식의 복잡하고 창의적인 문제 해결 능력이 자연스럽게 발현되는 것입니다. 이것은 기계가 마치 인간처럼 전략을 세우기 시작했다는 것을 의미합니다.

둘째, IRO는 ‘부드러운 확장성(Smooth scaling)’을 보여줍니다 [Inverse Rubric Optimization: A testbed for agent science](https://vuink.com/post/shypehz-d-dvap/2026/06/09/inverse-rubric-optimization-d-dhtml). 우리가 즐기는 게임을 예로 들어볼까요? 1단계부터 100단계까지 난이도가 계단처럼 부드럽게 올라가는 게임은 초보자부터 고수까지 모두가 포기하지 않고 즐길 수 있습니다. 반면 갑자기 난이도가 미친 듯이 널뛰는 게임은 좋은 평가를 받지 못하죠. IRO 테스트 환경 역시 마찬가지입니다. 아주 기초적인 AI부터 미래에 등장할 초고도화된 인공지능까지, 그 능력치에 비례해서 부드럽고 일관되게 성과를 측정할 수 있는 매우 안정적인 평가 구조를 가지고 있습니다.

놀랍게도 이 모든 실험의 뼈대가 되는 핵심 컴퓨터 코드는 전 세계 누구나 열람하고 활용할 수 있도록 깃허브(GitHub)라는 오픈소스 플랫폼의 ‘fulcrumresearch/iro’ 저장소에 투명하게 공개되어 있습니다 [GitHub - fulcrumresearch/iro](https://github.com/fulcrumresearch/iro). 최소한으로 가볍고 깔끔하게 짜인 이 코드베이스 덕분에, 전 세계의 수많은 AI 과학자들과 기업의 개발자들이 자신만의 AI 에이전트를 가져와 이 혹독하고 정교한 ‘블랙박스 심사위원’ 앞에서 자유롭게 테스트해 볼 수 있게 되었습니다.

앞으로 어떻게 될까? (What’s Next)

앞으로 AI 기술의 발전 방향은 명확합니다. 인간의 개입을 최소화하면서도, 스스로 알아서 척척 일을 해내는 ‘자율형 에이전트’의 완성도를 극대화하는 것입니다. 그리고 그 똑똑함의 척도는 이제 “얼마나 많은 지식을 외우고 있는가”에서 “얼마나 적은 힌트만으로도 사용자의 숨은 의도를 정확히 파악해 내는가”로 완전히 이동하고 있습니다.

이러한 거대한 흐름 속에서 IRO(역방향 채점 기준 최적화)와 같은 정교하고 역동적인 평가 환경은 에이전트 과학을 한 단계 도약시키는 중요한 이정표가 될 것입니다. 머지않은 미래에는 우리가 새로 구입한 스마트폰의 AI 비서나, 기업에 도입된 업무 자동화 로봇들이 모두 공장에서 출하되기 전 이 ‘IRO 풍동 실험장’을 거치며 치열하게 인간의 눈치를 기르는 훈련을 받게 될 것입니다.

질문을 열 번 해야만 겨우 내 마음을 알아채던 답답한 과거의 챗봇은 역사 속으로 사라지고 있습니다. 단 한두 번의 짧은 대화만으로도 “아, 이번 출장에서는 업무보다는 휴식이 필요하시군요. 바다 전망이 보이는 조용한 호텔로 예약해 드릴까요?”라고 속마음을 읽어내는 진정한 스마트 비서를 만나게 될 날이 우리 곁으로 성큼 다가왔습니다.

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자 시선: 사람의 마음을 읽고 숨은 의도를 파악하는 것은 어쩌면 기계에게 세상에서 가장 어려운 수학 문제를 푸는 것과 같습니다. 사람의 언어에는 늘 생략된 맥락과 미묘한 감정이 섞여 있기 때문입니다.

지금까지의 AI가 방대한 데이터를 달달 외워 똑똑해진 ‘모범생’이었다면, 이제는 현실의 모호함 속에서도 최적의 답을 찾아내는 ‘센스 있는 실무자’로 거듭나야 하는 시점입니다. IRO는 단순한 명령 수행을 넘어, 눈치와 센스를 갖춘 진정한 AI 비서가 탄생하기 위한 가장 훌륭하고 엄격한 훈련장이 될 것입니다. 한정된 기회 속에서 인간의 마음을 역추적하는 이 기술이, 결국에는 기계와 인간의 소통을 가장 자연스럽고 완벽하게 만들어주는 열쇠가 되지 않을까요?

참고자료

  1. [Inverse Rubric Optimization: A testbed for agent science](https://fulcrum.inc/2026/06/09/inverse-rubric-optimization.html)
  2. [Inverse Rubric Optimization: A testbed for agent science](https://vuink.com/post/shypehz-d-dvap/2026/06/09/inverse-rubric-optimization-d-dhtml)
  3. [Inverse Rubric Optimization: A testbed for agent science ...](https://www.lesswrong.com/posts/uSighG5zWbmtBembc/inverse-rubric-optimization-a-testbed-for-agent-science)
  4. [GitHub - fulcrumresearch/iro](https://github.com/fulcrumresearch/iro)
  5. [[2503.16416] Survey on Evaluation of LLM-based Agents](https://arxiv.org/abs/2503.16416)
  6. [AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society](https://arxiv.org/html/2502.08691v1)
  7. [[NeurIPS 2023] 거대언어모델 기반 자율 에이전트 (Large Language Model-based Autonomous Agents) - LG AI Research BLOG](https://www.lgresearch.ai/blog/view?seq=393)
  8. [[2503.24047] Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents](https://arxiv.org/abs/2503.24047)
  9. [逆向评分标准优化:智能体科学的测试平台](https://memedata.com/post/125636)
이 글을 얼마나 이해했나요?
Q1. 본문에서 설명하는 '역방향 채점 기준 최적화(IRO)'의 핵심 목적은 무엇인가요?
  • AI가 기존의 문서를 더 빠르게 번역하도록 돕는 것
  • 제한된 예산 안에서 숨겨진 심사위원의 선호도를 알아내도록 AI를 평가하는 것
  • 대규모 언어 모델의 텍스트 생성 속도를 2배로 높이는 것
IRO(Inverse Rubric Optimization)는 AI 에이전트가 제한된 질문 기회(라벨 예산)를 활용하여 내부를 알 수 없는 심사위원(블랙박스)의 취향과 선호도를 파악하도록 만드는 평가 환경(테스트베드)입니다.
Q2. 다음 중 현대의 LLM 기반 에이전트(LLM-based Agents)에 대한 설명으로 알맞은 것은 무엇인가요?
  • 과거의 챗봇처럼 정해진 답변만 반복하는 단순한 프로그램이다.
  • 오직 기상 예측과 같은 숫자 계산에만 사용되는 기술이다.
  • 가설을 생성하고 실험을 설계하는 등 복잡하고 동적인 환경과 상호작용하는 패러다임이다.
현대의 LLM 기반 에이전트는 단순한 대답을 넘어 스스로 가설을 세우고, 데이터를 분석하며, 동적인 환경과 상호작용하는 복잡한 능력을 갖추고 있습니다.
Q3. IRO 환경에서 AI 에이전트가 극복해야 하는 가장 큰 제약 조건은 무엇으로 비유되었나요?
  • 레시피에 들어가는 재료의 물리적인 무게 한도
  • 질문을 하거나 평가를 받을 수 있는 횟수가 정해져 있는 '라벨 예산'
  • 인터넷에 연결되지 않은 오프라인 환경
에이전트는 심사위원의 마음을 무한정 떠볼 수 없습니다. '라벨 예산(Label budget)'이라는 제한된 횟수 안에서만 평가를 받고 정답의 힌트를 얻을 수 있습니다.
AI는 어떻게 우리의 '속마음'을 알아맞힐까? 스...
0:00