이슈보는 집사/AI

AI가 인간 지식의 최전선을 넘어설 수 있을까?

우리집 고양이 토토에요 2025. 1. 24. 07:19

AI가 인간 지식의 최전선을 넘어설 수 있을까?


1. 프로젝트 개요

Humanity’s Last Exam은 인공지능(AI)이 인간 전문가 수준의 지식과 추론 능력을 갖추었는지 평가하기 위해 설계된 혁신적인 벤치마크입니다. Scale AI와 비영리 연구기관인 Center for AI Safety(CAIS)가 공동 개발한 이 시험은 수학, 인문학, 자연과학 등 다양한 분야의 전문가급 문제로 구성되었으며, AI의 한계를 탐구하는 데 초점을 맞췄습니다.

  • 목적: 기존 벤치마크의 포화 현상("Benchmark Saturation")을 해결하고, AI의 진정한 능력을 측정하기 위해 설계.
  • 참여 규모: 전 세계 50개국 500개 기관의 1,000명 이상의 전문가가 협력해 7만 개 이상의 문제 중 최종 3,000개를 선정.

2. 시험의 핵심 특징

가장 어려운 문제, 가장 정교한 평가

  • 문제 유형: 텍스트 기반 문제부터 이미지·다이어그램을 활용한 다중 모달 문제까지 다양하게 구성.
    • 예시: *"벌새과(Apodiformes)에 속하는 벌새는 caudolateral 부분에 위치한 sesamoid 뼈를 지닙니다. 이 뼈가 지지하는 paired tendon의 수는 몇 개인가요?"* .
  • 평가 대상: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 등 최첨단 멀티모달 언어 모델.

결과: AI의 현재 한계

2025년 1월 발표된 결과에 따르면, 최신 AI 모델도 10% 미만의 정답률을 기록했습니다. 이는 전문가 수준의 폐쇄형 문제에 대한 AI의 미흡한 추론 능력을 보여주지만, 동시에 이전 모델 대비 개선된 성능을 확인할 수 있었습니다.


3. 왜 이 시험이 중요한가?

AI 발전의 '측정 불가능' 위기 극복

  • 벤치마크 포화 문제: 기존 테스트(예: MATH 벤치마크)에서 AI가 90% 이상의 성적을 기록하면서, 진정한 능력 평가가 어려워짐.
  • 미래 예측: CAIS 공동 창립자 Dan Hendrycks는 "2021년 MATH 벤치마크에서 AI 성적이 10% 미만이었지만, 3년 만에 90%를 돌파한 사례처럼, 이번 시험도 빠른 발전의 시작일 수 있다"고 언급.

AI 안전성과 투명성 강조

  • 데이터 공개: 연구 커뮤니티에 3,000개 문제 중 일부를 공개해 AI의 한계를 탐구하고, 향후 모델 개선을 위한 로드맵 제시.
  • 윤리적 고려: 사회적 위험 감소를 목표로 한 CAIS의 연구 방향과 맞닿아 있으며, AI의 안전한 발전을 촉진.

4. 시사점과 미래 전망

인간과 AI의 협력 시대

  • 전문가 역량 강화: AI가 답변하지 못하는 문제는 인간 연구자들의 추가 탐구 주제로 활용될 수 있습니다.
  • 창의성 vs. 효율성: 웹페이지 7과 9에서 강조된 것처럼, AI의 빠른 데이터 처리와 인간의 창의적 사고가 결합될 때 혁신이加速됩니다.

차세대 벤치마크의 방향성

  • 동적 평가 체계: 정적 문제뿐만 아니라 실시간 변동성과 창의적 문제 해결 능력을 평가하는 방식으로 진화할 전망.
  • 글로벌 협업 확대: 2024년 9월부터 진행된 문제 공모를 통해 전문가들의 지식이 집약되었으며, 향후 더 많은 분야의 전문가 참여 예정.

5. 마치며: AI의 미래를 위한 질문들

Humanity’s Last Exam은 AI가 인간의 지적 한계를 넘어설 수 있는지에 대한 화두를 던집니다. 그러나 이 시험의 진정한 가치는 AI와 인간이 공존하며 서로의 강점을 보완하는 방법을 모색하는 데 있습니다. 기술 발전 속에서도 윤리적 프레임워크와 사회적 합의가 필수적이라는 점을 잊어서는 안 될 것입니다.

"AI가 인류의 마지막 시험이 되지 않도록, 우리는 오늘도 질문을 던집니다."


🔍 더 알아보기: