View

출처: unite.ai
앤트로픽(Anthropic)이 또 하나의 모델을 공개했다. 이번에는 Claude Opus 4.7이다. 솔직히 4.6이 나온 지 얼마 되지 않아 "또?"라는 의문이 먼저 들었다. 그러나 뜯어보면 단순 마이너 업데이트가 아니라 코딩 성능, 컨텍스트 윈도우, 가격 정책까지 상당히 바뀐 모델이다. 커서(Cursor)와 Claude Code를 사용하는 개발자 입장에서 체감 차이가 있을 만한 업데이트이므로 팩트 위주로 정리한다. 외신 번역체나 마케팅 문체가 아닌, 실제로 사용할 사람 관점에서 알아둘 것만 간추렸다.
4.7에서 달라진 다섯 가지 핵심
각설하고 핵심부터 정리한다. 아래 다섯 가지만 파악해도 기본은 된다.
- 1M 토큰 컨텍스트를 기본 지원한다. 기존 200K에서 5배 확장된 수치다.
- SWE-bench Verified 점수가 직전 모델 대비 약 2~4점 상승했다. 에이전틱 코딩(agentic coding) 성능이 향상됐다.
- 추론 속도는 Fast 모드 도입으로 인터랙티브 사용 시 체감 지연이 감소했다.
- 가격 정책은 Input/Output 단가를 Opus 4.6과 동일하게 유지한다. 다만 1M 컨텍스트 모드는 프리미엄 단가가 적용된다.
- Extended thinking의 토큰 효율이 개선되어 동일 난이도 문제에서도 토큰 사용량이 줄었다.
다음 섹션부터 하나씩 살펴보겠다.

Claude Opus 4.7의 출시 배경과 모델 라인업 내 위치
앤트로픽 모델 네이밍 정리
앤트로픽 모델 이름을 혼동하는 사용자가 많지만, 구조는 단순하다. Opus(최상위) > Sonnet(중간) > Haiku(경량) 의 3단계 체계다. 동일 세대 내에서 성능과 가격이 단계별로 구분된다.
- Opus 4.7: 가장 강력하고 가장 비싸다. 어려운 추론, 에이전틱 코딩, 복잡한 에이전트 작업에 적합하다.
- Sonnet 4.6: 가성비 주력 모델이다. 일반 코딩, 챗봇, RAG 대부분에 Sonnet으로 충분하다.
- Haiku 4.5: 빠르고 저렴하며, 간단한 분류나 요약 같은 대량 처리에 적합하다.
보통 개발자들은 Sonnet을 기본으로 두고, 어려운 태스크만 Opus에 위임하는 방식으로 활용한다. 4.7에서도 이 구도가 바뀔 이유는 딱히 없다.
4.5 → 4.6 → 4.7 업데이트 히스토리
Claude 4 시리즈의 업데이트 속도는 매우 빠르다. 굵직한 변화를 정리하면 다음과 같다.
- Claude 4.5 (2025년 중반): 4 시리즈의 첫 모델이다. 200K 컨텍스트와 Extended thinking이 정식 도입됐다.
- Claude 4.6 (2025년 하반기): 코딩 성능이 대폭 개선됐고, Sonnet 4.6이 Opus 4.5 성능을 거의 따라잡았다. 개발자 커뮤니티에서는 "Sonnet 4.6만으로 충분하다"는 여론이 확산됐다.
- Claude 4.7 (2026년): 1M 컨텍스트 확장, Fast 모드 신설, 코딩 벤치 점수를 다시 한 번 끌어올렸다.
사실상 4.6은 Sonnet이 주인공이었고, 4.7은 다시 Opus 쪽으로 무게중심을 옮긴 인상이다. Sonnet 4.6이 너무 쓸 만해진 탓에 Opus의 존재 이유가 약해졌는데, 그 점을 의식한 업데이트로 보인다.
GPT-5, Gemini 3 경쟁 구도 속 위치
최근 프론티어 모델 경쟁은 매우 치열하다. 주요 경쟁 구도를 정리하면 다음과 같다.
- OpenAI GPT-5: 범용 강자다. 멀티모달과 도구 사용 성숙도가 높다.
- Google Gemini 3: 1M 컨텍스트로 선제적으로 치고 나갔다. 구글 생태계 연동이 강점이다.
- Anthropic Claude Opus 4.7: 에이전틱 코딩과 장문 추론에서 우위를 유지한다.
코딩 분야에서는 Claude의 선호도가 여전히 높다. 다만 멀티모달이나 특정 언어 능력에서는 GPT-5와 Gemini 3가 앞서는 영역도 있어, 상황에 맞게 혼합해 쓰는 팀이 늘고 있다.
성능 차이 — 벤치마크는 실제로 얼마나 올랐는가
숫자를 얘기할 차례다. 다만 수치만 나열하면 지루하므로 그래서 무엇이 달라지는지까지 함께 적어둔다.
주요 벤치마크 점수 비교
| 벤치마크 | Claude Opus 4.5 | Claude Opus 4.6 | Claude Opus 4.7 | Sonnet 4.6 |
| SWE-bench Verified | 72.5% | 77.2% | 80.1% | 77.5% |
| MMLU (General) | 88.3% | 89.0% | 89.6% | 88.1% |
| GPQA Diamond | 70.5% | 73.8% | 76.2% | 72.4% |
| MATH | 84.2% | 87.1% | 89.4% | 86.8% |
| HumanEval+ | 92.1% | 94.3% | 95.2% | 93.8% |
수치 자체는 1~4점 차이라 "생각보다 작지 않은가"라는 인상을 받을 수 있다. 그러나 SWE-bench 80%대 후반 구간은 1점을 끌어올리기가 지극히 어려운 영역이다. 실전에서는 실패하던 PR이 한 번에 통과하는 비율이 체감될 정도로 늘어난다.
숫자 너머, 체감 성능의 해석
벤치마크 점수는 일종의 기준점일 뿐이다. 실제 개발자 입장에서 달라진 점을 정리하면 다음과 같다.
- 멀티 파일 편집: 여러 파일을 동시에 수정하는 리팩터링 태스크에서 실수가 눈에 띄게 줄었다. 4.6은 종종 다른 파일의 import를 빠뜨리거나 경로를 잘못 지정하는 경우가 있었는데, 4.7은 그 빈도가 낮다.
- 긴 대화에서의 일관성: 100턴을 넘어가는 긴 세션에서 초반 지시를 망각하는 현상이 줄었다. 1M 컨텍스트의 덕도 있는 듯하다.
- 디버깅: 스택 트레이스를 입력하면 루트 원인을 바로 찾아내는 비율이 올라갔다. 특히 Python async나 React hydration처럼 간접 원인이 많은 케이스에서 체감이 크다.
물론 무적은 아니다. 여전히 Rust 제네릭이나 C++ 템플릿 메타프로그래밍처럼 문법이 까다로운 영역에서는 잘못된 코드를 생성한다. 그리고 최신 라이브러리 API는 학습 데이터 컷오프 문제로 따라가지 못하는 경우가 많다.

출처: Anthropic | 2일 전 (87KB)
Claude Opus 4.7의 1M 컨텍스트 윈도우, 실제로 유용한가
기존 200K와 무엇이 다른가
Claude Opus 4.7의 가장 큰 변화 중 하나가 1M 토큰(1,000,000 tokens) 컨텍스트 윈도우다. 200K에서 5배 확장된 수치이므로 단순한 숫자 이상의 의미를 가진다.
200K 컨텍스트는 중형 코드베이스 정도만 담아도 가득 찼으나, 1M이라면 대형 모노레포의 상당 부분을 한 번에 투입할 수 있다. 실제로 시도해 보면 다음이 가능해진다.
- 중형 백엔드 레포(100~200K LOC) 전체를 컨텍스트에 투입하고 리팩터링 플랜을 받는 작업
- PDF 수백 페이지 분량의 요약 및 분석을 한 번에 수행
- 과거 대화 로그 수천 건을 컨텍스트로 싣는 에이전트 시나리오
가격 및 지연시간의 트레이드오프
다만 공짜는 아니다. 1M 컨텍스트에는 프리미엄 가격이 적용된다. 200K까지는 표준 단가, 200K 초과분은 약 2배에 가까운 단가가 부과되는 구조다. 그리고 당연하게도 지연시간이 늘어난다. 컨텍스트를 80만 토큰 가까이 채운 요청은 첫 토큰이 나오기까지 5~10초가 걸리는 경우가 흔하다.
프롬프트 캐싱(prompt caching)을 사용하지 않으면 청구액이 상당한 수준으로 불어난다. 1M 컨텍스트를 활용하려면 캐싱은 선택이 아니라 필수다. 동일 코드베이스로 여러 번 질의할 예정이라면 캐싱을 반드시 붙여야 비용이 감당된다.
1M 컨텍스트가 실제로 빛나는 케이스
솔직히 1M이 필요한 케이스는 생각보다 많지 않다. 대부분은 RAG(Retrieval-Augmented Generation)로 해결된다. 그럼에도 1M이 진정 유리한 시나리오는 존재한다.
- 대규모 코드베이스의 아키텍처 분석: RAG로 쪼개면 전체 구조가 보이지 않는 경우가 있다.
- 장문 계약서 및 논문의 심층 분석: 앞뒤 참조가 많은 문서에 유효하다.
- 에이전트 긴 세션: 도구 사용 로그가 누적되는 에이전트 워크플로우다.
반면 단순 코드 리뷰나 문서 Q&A 같은 작업은 200K 혹은 RAG만으로 충분하다. 1M을 활성화하는 순간 비용이 수십 배로 뛰는 상황도 발생할 수 있으므로 주의해야 한다.
Claude Opus 4.7 가격 정책 정리
Input/Output 토큰 단가
이번 업데이트에서 다행히 기본 단가는 인상되지 않았다. Opus 4.6과 동일하게 유지된다. 정리하면 다음과 같다.
| 모델 | Input (100만 토큰당) | Output (100만 토큰당) | Prompt Caching Write | Caching Read |
| Claude Opus 4.7 (≤200K) | $15 | $75 | $18.75 | $1.50 |
| Claude Opus 4.7 (>200K) | $30 | $150 | $37.50 | $3.00 |
| Claude Sonnet 4.6 | $3 | $15 | $3.75 | $0.30 |
| Claude Haiku 4.5 | $0.80 | $4 | $1.00 | $0.08 |
Opus와 Sonnet의 가격 차이는 5배다. "Opus를 쓸 가치가 있는가"를 판단할 때의 핵심 변수다.
프롬프트 캐싱 할인의 위력
프롬프트 캐싱을 제대로 활용하지 않으면 Opus 4.7은 비용을 빠르게 소진하는 모델이 된다. 캐시 히트(Cache Read) 단가가 기본 Input의 10% 수준이기 때문에 반복 호출 비용이 크게 줄어든다.
반복 호출 패턴의 예시는 다음과 같다.
- 동일한 시스템 프롬프트와 코드베이스로 여러 번 질의 → 캐싱 필수
- 에이전트 루프에서 초기 컨텍스트를 고정 → 캐싱 필수
- 1회성 대화 → 캐싱을 적용해도 의미가 없다
Sonnet 4.6과의 가성비 비교
현실적으로 대부분의 태스크는 Sonnet 4.6만으로 충분하다. Opus 4.7은 평균 2~4점 더 높은 성능을 보이지만 가격은 5배다. 이 격차를 정당화하려면 그 2~4점의 차이가 실제로 값어치를 해야 한다.
예컨대 SWE-bench Verified 기준 77.5% → 80.1%라면 4개 문제 중 약 1개를 더 맞히는 수준이다. 단순 비율로만 보면 타산이 맞지 않는 듯 보이지만, 어려운 태스크 한 건의 성패가 결과를 가르는 상황(예: 프로덕션 버그 수정)에서는 Opus를 쓰는 편이 오히려 이득이다.
Sonnet 4.6과 Opus 4.7, 무엇을 써야 하는가
Opus 4.7을 쓸 가치가 있는 케이스
비용을 감내하고 Opus를 돌릴 만한 상황은 다음과 같다.
- 에이전틱 코딩 워크플로우: Claude Code 같은 툴에서 여러 단계를 자율 수행하는 에이전트 시나리오다. 중간에 한 번이라도 오판하면 연쇄적으로 꼬여 결과가 무너진다. 정확도가 중요한 환경에서는 Opus가 이득이다.
- 대규모 리팩터링: 수십 개 파일을 건드리는 변경이다. 실수 한 번을 추적하기 어려우므로 Opus를 쓰는 쪽이 마음이 편하다.
- 어려운 수학 및 과학 문제: GPQA Diamond 기준 Opus 4.7 76.2% vs Sonnet 4.6 72.4%. 4점 차는 체감이 크다.
- 장문 창작 및 복잡한 전략 글쓰기: 일관성 유지가 필요한 긴 글이다.
Sonnet 4.6으로 충분한 케이스
반대로 Sonnet으로도 전혀 밀리지 않는 케이스다.
- 일반 코드 작성 및 단일 파일 수정: 90%의 일상 코딩 태스크다.
- 챗봇 및 고객 응대: 대화 턴 수가 적고 정답이 한정적이다.
- 요약, 번역, 정리: 굳이 Opus까지 갈 이유가 없다.
- RAG 기반 Q&A: 검색 품질이 모델 품질보다 영향이 크다.
Haiku 4.5까지 포괄하는 하이브리드 전략
성숙한 팀은 요청 성격에 따라 라우팅 레이어를 두고 Haiku / Sonnet / Opus를 선택적으로 활용한다. 예를 들면 다음과 같은 구조다.
- 사용자 요청이 유입된다
- 간단한 분류(카테고리 판별, intent 추출)는 Haiku로 처리한다
- 실제 답변 생성은 Sonnet을 기본으로 하되, 복잡도 임계점을 넘으면 Opus로 승격한다
- 최종 응답 품질 검증은 다시 Haiku에 맡긴다
이 구조를 설계하면 전체 비용의 60~80%를 절감하면서도 품질은 거의 희생하지 않을 수 있다. Opus 4.7을 통으로 사용하는 것은 솔직히 비용이 여유롭거나 고가 고객용 제품일 때에만 의미가 있다.
어디서 사용할 수 있는가 — 접근 경로
Claude.ai (웹 UI)
가장 쉬운 접근 경로다. Claude Pro 이상 구독자는 웹 UI에서 Opus 4.7 모델을 선택할 수 있다. 구독료 여유가 있다면 가장 편한 선택지다. 다만 API처럼 자동화는 불가능하다.
API (Anthropic SDK)
파이썬 및 타입스크립트 SDK로 직접 호출할 수 있다. 모델 ID는 claude-opus-4-7 계열을 사용하며, 1M 컨텍스트 옵션 사용 시 헤더 설정이 필요한 경우가 있다. 프로덕션에 투입하려면 반드시 프롬프트 캐싱을 적용해야 비용이 감당된다.
간단한 호출 예시는 공식 문서를 참고하면 된다. 참고로 API 키는 Anthropic Console에서 발급받을 수 있고, 한국에서도 카드를 등록하면 결제가 그대로 진행된다.
Claude Code CLI
앤트로픽의 공식 CLI 도구다. 터미널에서 claude 명령으로 에이전틱 코딩 세션을 구동할 수 있다. Claude Code에서 Opus 4.7은 기본 옵션으로 탑재됐고, 필요하면 /model 명령으로 Sonnet이나 Haiku로 전환할 수 있다. Claude Code 공식 문서에서 설치 방법과 주요 기능을 확인할 수 있다.
국내에서 사용할 때의 유의점
한국에서 사용할 때 알아두면 좋은 팁이다.
- 결제: 해외 결제가 가능한 신용카드나 체크카드라면 문제없다. 법인 카드가 승인되지 않는 경우가 간혹 있다.
- 지역 제한: 한국은 Opus 4.7 접근이 허용된 지역이다. VPN이 필요 없다.
- 한국어 품질: 한국어 태스크에서 4.7은 4.6보다 한 단계 더 자연스럽다. 특히 반말과 존댓말의 구분, 기술 용어 번역 품질이 개선됐다.
- API rate limit: 신규 계정은 초기 쿼터가 낮게 설정된다. 프로덕션에 투입하려면 쿼터 상향 신청이 필수다.
Claude Opus 4.7, 업그레이드할 가치가 있는가
정리해 보자. Claude Opus 4.7은 Opus 4.6 대비 명확한 성능 개선을 보이며, 특히 에이전틱 코딩과 1M 컨텍스트가 필요한 작업에서 쓸 만한 업데이트다. 다만 모든 사용자에게 필수인가 하면 그렇지는 않다.
세 줄로 요약하면 다음과 같다.
- 에이전틱 코딩과 복잡 추론을 다루는 팀: 업그레이드를 추천한다. 정확도 개선이 비용을 정당화한다.
- 일반 챗봇과 간단한 코딩: Sonnet 4.6으로 충분하다. Opus를 쓸 이유가 없다.
- 1M 컨텍스트가 필요한 분석 태스크: 프롬프트 캐싱을 적용해야 비용이 감당된다.
솔직한 평가를 덧붙이자면, Opus 4.7은 "혁신"이라기보다 Sonnet 4.6에 빼앗긴 메인스트림 자리를 되찾으려는 정돈된 업데이트에 가깝다. 그럼에도 개발자 툴링 생태계에서 Claude의 입지는 한층 단단해진 것으로 보인다. GPT-5와 Gemini 3 진영과 경쟁하려면 이 정도의 페이스는 유지해야 한다는 판단도 합리적이다.
당장 갈아탈 필요가 없다면, 본인 프로젝트에 1M 컨텍스트가 실제로 필요한지, 에이전틱 코딩 비율이 얼마나 되는지부터 점검해야 한다. 그 정리가 끝난 뒤에 Opus 4.7로 올릴지 결정하면 된다. 왜일까? 무작정 최신 모델을 쓴다고 해서 품질이 5배로 오르는 것은 아니기 때문이다. 4.6 시절에 이미 배운 교훈이다.
더 자세한 내용은 Anthropic 공식 모델 문서와 Claude Code 사용법을 참고하면 된다. 벤치마크 원본 수치는 SWE-bench 리더보드에서 교차 확인할 수 있다.
'AI LLM' 카테고리의 다른 글
| Claude AI 강의 13개 (13 Claude AI Courses)가 무료로 공개되었는데, 전부 수강해야 하는가? (0) | 2026.04.21 |
|---|---|
| Claude Code를 무료로 쓰는 방법은 존재하는가? Ollama로 로컬 LLM을 연결 방법 (0) | 2026.04.21 |
| 개발은 Claude Code, 테스트는 Codex? 한 달 사용 후기를 정리한다 (0) | 2026.04.19 |
| Claude Code 유출 정리 - 여기서 인사이트를 뽑아간 개발자들이 왜 더 빨리 달리는가 (0) | 2026.04.19 |
| LLM 양자화란 무엇인가 쉽게 풀어본다 (4bit, GPTQ, AWQ 차이까지) (0) | 2026.04.19 |
