인공지능 시장의 판도를 바꿀 역대급 모델이 등장했다. [LINK]
앤트로픽(Anthropic)이 차세대 인공지능 모델인 ‘클로드 5(Claude 5)’ 라인업의 핵심 축인 ‘Claude Fable 5’와 ‘Claude Mythos 5’를 공식 발표했다. 이번 발표는 단순한 성능 향상을 넘어, AI가 현실 세계의 복잡한 문제를 어디까지 해결할 수 있는지 그 한계를 다시 정의했다는 점에서 전 세계 테크 업계의 이목을 집중시키고 있다.
베일에 싸여 있던 두 모델의 실체와 압도적인 벤치마크 성과, 그리고 안전 장치와 가격 정책까지 가감 없이 상세하게 파헤쳐 본다.
1. 클로드 5 라인업의 두 얼굴: Claude Fable 5와 Mythos 5 차이점
앤트로픽은 이번에 동일한 성능적 뿌리를 가졌지만 접근 방식을 완전히 달리한 두 가지 형태로 모델을 선보였다.
1. 일반 대중과 기업들이 안전하게 사용할 수 있도록 설계된 ‘Claude Fable 5’이다.
이 모델은 소프트웨어 엔지니어링, 복잡한 데이터 분석, 과학적 추론, 비전(시각 언어) 처리 등 다방면에서 기존의 플래그십 인공지능들을 아득히 뛰어넘는 최상위 성능을 자랑한다. 누구나 일상 업무나 비즈니스에 즉시 도입할 수 있는 범용적인 최고 존엄 모델이라고 이해하면 된다.
2. 인공지능의 리미트를 해제한 ‘Claude Mythos 5’이다. 근본적인 지능과 파라미터 구조는 Fable 5와 완벽히 동일하다.
하지만 결정적인 차이점이 존재한다. 바로 사이버 보안 연구 및 국가 인프라 방어 등을 위해 최소한의 안전 장치(Safeguards)까지 모두 제거한 특수 목적형 모델이라는 점이다. 이 모델은 오용될 위험성이 극도로 높기 때문에 일반 대중에게는 공개되지 않으며, 미국 정부 및 사전에 승인된 보안 파트너들에게만 제한적으로 제공된다. 마치 강력한 경주용 자동차의 안전 제한 장치를 풀고 트랙 위에서만 달리게 하는 것과 유사한 이치이다.
2. 과도한 고성능이 불러온 제약: Fable 5의 보수적인 안전 장치 작동 방식
Claude Fable 5는 인간의 통제를 벗어날 수도 있을 만큼 강력한 추론 능력을 지니고 있다. 이 때문에 앤트로픽은 이 모델이 사이버 공격이나 악성코드 생성 등에 악용되는 것을 막기 위해 매우 꼼꼼하고 보수적인 안전 필터를 적용했다.
만약 사용자가 입력한 질문이나 프롬프트에서 조금이라도 위험의 소지가 감지되면, Fable 5는 직접 답변하는 것을 거부한다. 대신 시스템이 자동으로 판단하여 차상위 모델인 ‘Claude Opus 4.8’로 질문을 토스(라우팅)하여 답변을 생성하게 만든다.
앤트로픽의 통계에 따르면 이러한 안전 장치가 작동하여 모델이 전환되는 경우는 전체 대화 세션의 평균 5% 미만이다. 다만 시스템이 너무 엄격하게 감시하다 보니, 아무런 해가 없는 일반적인 질문임에도 불구하고 위험한 질문으로 오인하여 Opus 4.8로 돌려버리는 이른바 ‘오작동(False Positive)’ 현상이 간혹 발생하곤 한다. 개발사 측은 이러한 불편함을 인지하고 있으며, 향후 몇 달간 안전 필터의 정밀도를 다듬어 오작동 비율을 획기적으로 낮추겠다고 공언했다.
3. 5,000만 줄의 코드를 단 하룻만에: Fable 5가 보여준 압도적 성능
Claude Fable 5의 진가는 실제 산업 현장과 성능 측정 플러그인에서 여실히 드러났다. 분야별로 이 모델이 달성한 놀라운 업적들을 살펴보면 감탄이 절로 나온다.
ㄱ. 소프트웨어 엔지니어링 및 개발 분야
글로벌 결제 플랫폼 기업인 스트라이프(Stripe)에서 진행한 실제 업무 테스트는 인공지능 역사에 남을 만한 성과를 기록했다. 스트라이프의 개발 팀 전체가 매달려 최소 두 달 이상 야근을 해야 마칠 수 있는 대규모 프로젝트가 있었다.
바로 5,000만 줄에 달하는 거대한 Ruby 코드베이스 전체를 마이그레이션(버전 및 환경 이전)하는 작업이었다. Claude Fable 5는 이 엄청난 분량의 소스코드를 통째로 분석하더니, 단 하루 만에 오류 없이 마이그레이션을 완벽하게 완수했다. 인간 개발자가 도저히 따라잡을 수 없는 가공할 만한 연산 속도와 코드 이해력을 증명한 셈이다. 또한 현업 수준의 복잡한 코드 환경을 평가하는 Cognition의 ‘FrontierCode’ 벤치마크에서도 역대 최고 점수를 갈아치웠다.
ㄴ. 비전(Vision) 및 자율 게임 플레이 능력
시각 정보를 해석하는 능력도 인간의 눈에 육박한다. 복잡하게 얽힌 과학 논문의 그래프나 도표 속에서 소수점 아래 숫자까지 정확하게 추출해 내는 것은 기본이다. 단순히 웹사이트의 화면 스크린샷 이미지 한 장만 던져주어도, 그 사이트를 구동하기 위한 프론트엔드 소스 코드를 그대로 복사해 내는 수준에 이르렀다.
가장 흥미로운 점은 게임 플레이 테스트였다.
기존의 인공지능 모델들은 게임을 시키려면 API를 연결하거나 내부 게임 데이터를 텍스트로 치환해 주는 복잡한 보조 시스템(Harness)이 필수적이었다. 하지만 Fable 5는 아무런 보조 장치 없이, 인간과 동일하게 오직 모니터 화면 스크린샷(시각 정보)만을 실시간으로 바라보며 고전 게임인 ‘포켓몬스터 파이어레드 버전’을 스스로 처음부터 끝까지 클리어하는 기염을 토했다. 게임 내의 텍스트를 읽고, 상황을 시각적으로 인지하여, 다음 행동을 완벽하게 추론해 낸 결과이다.
ㄷ. 고급 추론 및 금융 분석
금융 및 기업 분석 플랫폼 헤비아(Hebbia)의 고급 추론 벤치마크에서 Fable 5는 복잡한 다중 문서 분석, 차트 해석, 기업 재무제표 대조 분석 등에서 타사 모델들을 압도하는 점수를 받았다.
또한 글로벌 트레이딩 기업 IMC의 분석 평가에서도 단순한 사실 확인을 넘어 ‘원인 분석’과 ‘기대가치 계산’ 등의 논리적 단계를 완벽하게 통과하며 금융 전문가 수준의 판단력을 입증했다.
ㄹ. 기억력과 맥락 유지 능력
수백만 토큰의 텍스트를 한 번에 기억하는 능력도 비약적으로 상승했다.
하드코어 덱 빌딩 게임인 ‘슬레이 더 스파이어(Slay the Spire)’를 활용한 장기 기억 테스트에서 영구 파일 메모리를 결합했을 때, Fable 5는 기존 모델인 Opus 4.8 대비 무려 3배 이상 뛰어난 효율을 보여주었으며 최종 보스 스테이지에 도달하는 확률 역시 정확히 3배가량 높았다. 긴 대화나 장문의 책 한 권을 통째로 넘겨도 중간에 맥락을 놓치지 않고 집중력을 유지한다는 의미이다.
4. 인류의 과학적 한계를 넓히다: Mythos 5의 경이로운 과학 연구 성과
안전 제한 장치를 해제하고 과학 연구 및 방어 목적으로 투입된 Claude Mythos 5는 미국 정부와의 합동 보안 프로젝트인 ‘프로젝트 글래스윙(Project Glasswing)’을 통해 먼저 배포되어 일반인들이 상상하기 힘든 수준의 과학적 성과를 도출해 냈다.
1. 신약 개발 속도를 획기적으로 줄였다. Mythos 5는 인간 과학자의 가이드 없이도 스스로 컴퓨터 내의 단백질 디자인 도구와 생물정보학 소프트웨어를 선택하고 실행했다. 이를 통해 기존에 수개월에서 수년이 걸리던 신약 후보 물질 탐색 기간을 약 10분의 1 수준으로 단축시켰다.
실제로 연구를 진행한 14개의 난치성 단백질 타깃 중에서 무려 9개에 대해 강력한 효능을 보일 것으로 예상되는 신약 후보 물질을 스스로 찾아냈으며, 현재 임상 전 단계의 정밀 조사가 진행 중이다.
2. 생물학적 가설을 스스로 수립하고 검증했다.
앤트로픽 내부의 박사급 과학자들이 기존 AI 모델들과 Mythos 5가 내놓은 분자 생물학 가설을 블라인드 테스트로 심사한 결과, Mythos 5의 가설이 기존 Opus급보다 80% 이상 더 우수하고 독창적이라는 평가를 내렸다. 놀라운 점은 Mythos 5가 대장균(E. coli) 단백질의 변이에 대해 내놓은 특정 가설 중 하나가, 실제 현실 세계의 다른 독립 연구소에서 발표한 최신 논문의 실험 결과와 정확히 일치하며 사실로 밝혀졌다는 점이다. AI가 인간 학자도 미처 생각지 못한 자연의 법칙을 먼저 추론해 낸 것이다.
3. 자율적인 대규모 유전학 연구를 수행했다.
Mythos 5는 일주일 동안 인간의 개입 없이 자율 구동되며 138개 동물 종의 수백만 개에 달하는 단일 세포 데이터를 수집하고 분류했다.
여기서 그치지 않고 이 데이터를 분석하기 위한 머신러닝 알고리즘 모델을 스스로 코딩하여 학습까지 완료시켰다. 이렇게 AI가 자율적으로 만든 경량 모델은 세계 최고 권위의 과학 저널인 ‘사이언스(Science)’에 기존 인간 학자들이 발표했던 기존 모델보다 크기는 100배나 작으면서도 데이터 예측 성능은 훨씬 우수한 결과를 나타냈다. 앤트로픽은 이 경이로운 유전학 연구 성과를 몇 달 내로 정식 과학 논문으로 엮어 학계에 출판할 예정이라고 밝혔다.
5. 클로드 5의 합리적인 가격 정책 및 뛰어난 안전성
우주적인 성능 향상을 이뤄냈음에도 불구하고, 앤트로픽은 가격을 대폭 인하하는 공격적인 마케팅 전략을 취했다. 개발자 및 기업들이 API를 통해 Claude 5 모델을 사용할 때 부과되는 비용은 다음과 같다.
| 구분 | 가격 (100만 토큰 기준) | 비고 |
| Input (입력 토큰) | $10 | 기존 Claude Mythos Preview 가격 대비 50% 이상 저렴함 |
| Output (출력 토큰) | $50 | 기존 Claude Mythos Preview 가격 대비 50% 이상 저렴함 |
가격을 기존 프리뷰 버전의 절반 이하로 대폭 낮춤으로써 높은 성능의 AI를 필요로 하는 스타트업과 대기업들의 비용 부담을 획기적으로 줄여주었다.
또한 많은 이들이 우려하는 ‘인공지능의 반항’이나 ‘기만 행위’에 대한 안전성(Alignment) 검증도 철저하게 마쳤다.
자동화된 시스템 카드 평가 결과, Claude 5 라인업은 사용자를 속이거나 악의적인 요청에 동조하는 등의 부적절한 행동 발생 빈도가 기존의 안전한 모델인 Claude Opus 4.8과 동일한 수준으로 매우 낮게 통제되고 있음이 확증되었다. 뛰어난 지능을 가졌으면서도 통제 가능한 안전한 울타리 안에 머물고 있다는 뜻이다.
앤트로픽의 클로드 5 발표는 단순히 새로운 소프트웨어의 출시를 넘어, 인공지능이 인간 고유의 영역이라 여겨졌던 고난도 과학 연구와 거대 소프트웨어 엔지니어링을 자율적으로 수행하는 ‘Agi(인공일반지능)’의 시대가 코앞으로 다가왔음을 시사한다. 앞으로 이 강력한 도구를 손에 쥔 인류가 어떠한 혁신을 만들어낼지 귀추가 주목된다.