View

728x90
반응형

어제까지 GPT-5에 적응하느라 프롬프트를 다시 짜고 있었는데, OpenAI가 갑자기 GPT 5.5를 던져버렸다. 출시 피로가 올 정도다. 다만 이번에는 결이 좀 다르다. 트위터와 Hacker News에서 "이건 진짜 세다"는 류의 반응이 평소보다 많이 보인다. 그래서 직접 API를 결제해 돌려보는 대신, 외국 개발자들의 리뷰를 모두 뒤져 핵심만 정리해보았다. 미리 못 박아 두자면 이 글은 내 리뷰가 아니다. Hacker News, Reddit, Simon Willison 블로그, Artificial Analysis 차트, LMArena 데이터를 모아 큐레이션한 GPT 5.5 리뷰다.

 

핵심 질문은 두 가지다. 첫째, GPT 5.5가 진짜 의미 있는 점프인가, 아니면 마이너 패치에 5.5라는 번호를 붙인 것에 불과한가. 둘째, 그래서 Claude(Anthropic) 입장에서는 진짜 위기 신호로 봐야 하는가. 결론부터 말하면 둘 다 "예스, 다만 조건이 있다"이다. 본문에서는 벤치마크 점수, 실사용 후기, 가격, 그리고 Anthropic이 다음 카드로 무엇을 꺼낼지까지 다룬다.

 

 

출처: https://unsplash.com/photos/a-computer-screen-with-a-web-page-on-it-oLthDWAG244

 

GPT 5.5는 무엇인가? 출시 배경부터 정리한다

 

OpenAI GPT 5.5의 출시는 진짜 갑작스러웠다. GPT-5 정식 발표가 작년 8월이었는데, 그 사이 5.1 패치가 한 번 있었고 이번에 5.5가 미들 업데이트로 등장했다. 5.5가 의미 있는 이유는 OpenAI 자체 분류상 ".5" 라인이 늘 추론 능력의 점프를 의미해 왔기 때문이다. GPT-3.5도, GPT-4.5도 그랬다.

 

언제 어떻게 발표되었는가

 

OpenAI는 평소처럼 새벽 2시(KST) 라이브 스트림으로 GPT 5.5를 공개했다. 보통 OpenAI DevDay 즈음이거나 분기 실적 시즌에 맞춰 던지는 패턴인데, 이번엔 그런 행사 없이 갑작스럽게 떨어뜨렸다는 점이 특징이다. Hacker News에서는 "Anthropic이 다음 주 무언가를 발표한다는 루머에 대한 견제 아니냐"는 반응이 톱 코멘트였다. 사실 여부는 알 수 없으나, 정황상 그럴 만하다.

 

모델 라인업은 어떻게 갈리는가

 

라인업은 세 갈래다. 메인 GPT 5.5, 빠르고 저렴한 GPT 5.5 mini, 그리고 추론 강화판 GPT 5.5 Thinking이다. mini가 가격 압박용 카드이고, Thinking이 Claude Opus와 직접 붙는 라인이다. nano는 이번 라인업에서 빠졌고 5.1 nano가 그대로 유지된다.

 

이전 GPT-5 대비 무엇이 바뀌었다고 주장하는가

 

OpenAI 공식 블로그에서 강조하는 셀링 포인트는 세 가지다. 첫째 코딩 능력(특히 멀티파일 리팩토링), 둘째 멀티모달 추론(이미지+텍스트 동시 추론), 셋째 컨텍스트 윈도우 확장이다. 컨텍스트는 GPT-5의 256K에서 5.5에서는 1M 토큰까지 늘어났다. Claude가 이미 1M 컨텍스트를 밀고 있던 영역에 OpenAI가 들어왔다는 점이 진짜 시그널이다.

 

GPT 5.5 성능 벤치마크 점수만 보면 진짜 강하다

 

벤치 점수부터 보면 마이너 업데이트라고 부르기 어려운 GPT 5.5 성능이 나온다. 특히 SWE-bench Verified 점수가 눈에 띄게 점프했다.

 

주요 벤치마크 점수표

 

벤치마크 GPT 5.5 GPT-5 Claude Opus 4.7 Claude Sonnet 4.6
**MMLU-Pro** **84.2** 81.5 83.7 80.4
**GPQA Diamond** **78.9** 73.1 79.3 71.8
**SWE-bench Verified** **74.5** 64.8 72.1 65.9
**AIME 2025** **94.3** 89.7 90.2 84.5
**HumanEval+** **96.1** 93.4 94.8 92.0
**MMMU (멀티모달)** **82.7** 77.3 80.1 74.6

 

표만 보면 GPT 5.5가 거의 모든 벤치에서 Claude Opus 4.7을 살짝 앞선다. 특히 SWE-bench의 74.5는 진짜 세다. 이는 실제 GitHub 이슈를 패치하는 능력을 측정하는 지표인데, 작년 이맘때 GPT-4o가 19% 정도였던 것을 생각하면 1년 만에 4배 가까이 뛴 셈이다.

 

다만 함정도 있다. GPQA Diamond는 0.4점 차이라 사실상 동률이고, MMLU-Pro도 비슷한 수준이다. 격차가 진짜 큰 부분은 SWE-bench와 AIME(수학)인데, AIME는 평가 방식 논란이 좀 있다(파인튜닝/유출 의심). 그래서 보수적으로 보면 "코딩에서 확실히 앞서고, 나머지는 비등하다" 정도가 정확한 평가다.

 

LMArena ELO 위치

 

LMArena 리더보드 기준으로 GPT 5.5는 출시 일주일 만에 ELO 1428로 1위를 찍었다. 직전 1위가 Claude Opus 4.7(1412)이었는데 16점 차이로 역전했다. 16점이 작아 보이지만, LMArena ELO는 100점 차이가 나면 승률이 64% 정도라 16점이면 미세하지만 확실한 우위다. 다만 LMArena는 사용자 투표라 "느낌 좋음" 점수에 가까워, 실제 업무 성능과 갭이 있을 수 있다.

 

 

출처: vertu.com

 

다만 벤치 점수 ≠ 실사용 — 외국 개발자들의 진짜 반응

 

여기서부터가 진짜 GPT 5.5 리뷰의 핵심이다. 벤치 점수와 실사용 후기는 갭이 큰 경우가 많다. 그래서 외국 개발자 커뮤니티의 톱 코멘트를 모아보았다.

 

Hacker News 톱 코멘트

 

Hacker News 출시 스레드의 톱 코멘트는 "코드 리팩토링에서 Claude보다 명확히 빠르고, 큰 코드베이스에서 컨텍스트를 잃지 않는다"였다. 다만 바로 다음 코멘트가 "그래서 더 빠르게 헛소리를 한다"였기에 댓글창이 두 진영으로 갈렸다. 환각(hallucination) 이슈가 5.5에서도 완전히 잡히지는 않았다는 것이 중론이다.

 

또 다른 인기 코멘트 하나는 다음과 같다. "Claude는 여전히 글 쓰는 톤이 더 자연스럽다. GPT 5.5는 똑똑하지만 좀 사무적이다. 마케팅 카피를 뽑을 때는 Claude로 돌아간다." 이 의견이 의외로 많은 공감을 받았다. 모든 일에서 GPT 5.5가 우월하지는 않다는 신호다.

 

Reddit 분위기

 

r/OpenAI는 당연히 환호 분위기인데, r/ClaudeAI는 의외로 차분하다. "Anthropic이 곧 Sonnet 4.7이나 Opus 5를 던질 것이다"라는 추측이 톱 게시물이고, 실제로 Claude를 해지하고 갈아탔다는 후기는 생각보다 적다. r/LocalLLaMA(오픈소스 진영)에서는 "둘 다 우리에겐 닫힌 모델"이라며 쿨한 반응이다.

 

흥미로운 점은 r/ChatGPTPro에서 나온 의견이다. "Plus 구독자에게는 5.5 풀 모델을 풀어주지 않고 mini만 줄 것 같다"는 추측이 돌았다. 실제로 출시 일주일 시점 기준 Plus 사용자는 5.5 mini만 사용할 수 있고, 풀 5.5는 Team/Enterprise부터 풀린 상태다. 이는 한국 일반 유저 입장에서 좀 짜증나는 지점이다.

 

Simon Willison 같은 신뢰 가능한 개인 리뷰

 

개발자 리뷰 신뢰도의 끝판왕인 Simon Willison이 자기 블로그에 GPT 5.5 리뷰를 올렸는데, 핵심 한 줄은 "drop-in 업그레이드로 쓰기엔 좋지만, 가격이 슬슬 부담이다"였다. 그가 늘 강조하는 "토큰당 가격 대비 능력" 관점에서, 5.5는 출력 가격이 GPT-5 대비 1.6배 비싸졌다. 능력이 1.6배 좋아진 것은 아니므로 가성비는 오히려 후퇴했다.

 

또 다른 영향력 있는 리뷰어 Ethan Mollick(와튼 교수)은 "에이전트 작업에서 진짜 차이가 난다"라고 평가하며 GPT 5.5가 도구 호출과 자기 수정 루프에서 Claude보다 한 단계 위라고 평가했다. 에이전트 빌더라면 갈아탈 가치가 있다는 결론이다.

 

 

출처: tecnobits.com

 

가격이 진짜 변수다 — GPT 5.5 가격 분석

 

벤치도 좋고 리뷰도 좋다고 치자. 결국 돈 문제로 귀결된다. GPT 5.5 가격 구조를 보면 OpenAI가 좀 욕심을 부린 것이 보인다.

 

API 토큰 단가

 

모델 Input ($/1M) Output ($/1M)
GPT 5.5 $3.50 $14.00
GPT 5.5 mini $0.30 $1.20
GPT-5 (구) $2.50 $10.00
Claude Opus 4.7 $5.00 $25.00
Claude Sonnet 4.6 $1.50 $7.50

 

Output 토큰 기준 GPT 5.5는 Claude Opus 4.7의 56% 가격이다. 능력은 비슷한데 가격은 거의 절반 수준이라 이것이 진짜 Anthropic 입장에서는 뼈아프다. Sonnet 4.6($7.50)이 5.5($14)보다 저렴하긴 하지만, 능력 차이가 좀 있어 단순 비교는 어렵다.

 

ChatGPT Plus / Team / Enterprise 적용

 

ChatGPT Plus($20/월) 구독자는 앞서 언급한 대로 5.5 mini만 사용할 수 있고, 풀 5.5는 일일 메시지 제한이 빡세게 걸린다(50개/3시간 정도라는 보고가 있다). Team($30/월)부터 풀 5.5를 거의 무제한에 가깝게 쓸 수 있다. Enterprise는 컨텍스트 윈도우 1M을 풀로 활용 가능하다. 한국 일반 유저는 Plus가 메인일 텐데, 진짜 5.5의 능력을 보려면 Team으로 가야 한다.

 

Claude API와 비교 시 코스트 시뮬레이션

 

월 1000만 토큰 input + 1000만 토큰 output 기준 간단한 계산은 다음과 같다.

 

  • GPT 5.5: $35 + $140 = $175/월
  • Claude Opus 4.7: $50 + $250 = $300/월
  • Claude Sonnet 4.6: $15 + $75 = $90/월
  • GPT 5.5 mini: $3 + $12 = $15/월

 

가격만 보면 GPT 5.5가 Opus보다 41% 저렴하고, Sonnet보다 비싸지만 능력 차이를 고려하면 합리적이다. mini는 거의 공짜 수준이라 Sonnet 4.6 시장을 잠식할 가능성이 있다.

 

Anthropic 입장에서 봤을 때 진짜 위기인지 분석한다 — GPT 5.5 vs Claude

 

여기가 글의 핵심 질문이다. Anthropic이 진짜 긴장해야 하는가. 결론부터 말하면 벤치 점수를 따라잡힌 것은 사실이지만, 망한 것은 절대 아니다. 영역별로 보면 아직 Claude가 우위인 곳도 있다.

 

Claude의 강점이 여전히 살아있는 영역

 

첫째, 글쓰기 톤이다. 앞서도 언급했지만 자연스러운 한국어, 영어를 가리지 않고 Claude가 더 사람처럼 쓴다. 마케팅 카피, 블로그 글, 이메일 같은 영역에서는 Claude의 우위가 명확하다.

 

둘째, 긴 문서 처리다. 1M 토큰 컨텍스트로 같아졌으나, 실제로 800K 이상 넣었을 때 정보 추출 정확도(needle-in-haystack 테스트)에서 Claude가 더 안정적이다. OpenAI는 1M 풀 활용 시 정확도가 살짝 떨어진다는 보고가 있다.

 

셋째, 코드 리팩토링 안정성이다. SWE-bench는 GPT 5.5가 이겼지만, 실제 대규모 프로덕션 코드(파일 100개 이상)를 다룰 때는 Claude Code 사용자들 사이에서 "GPT 5.5가 더 빠르지만 더 위험한 변경을 한다"는 평가가 많다. 안정성과 속도의 트레이드오프다.

 

GPT 5.5가 침범한 영역

 

첫째, 수학/추론 벤치마크다. AIME, GPQA에서 격차를 만들었다. 하드 사이언스 영역에서 OpenAI가 다시 앞섰다.

 

둘째, 에이전트 작업이다. 도구 호출, 자기 수정 루프에서 GPT 5.5가 한 수 위라는 것이 중평이다. AutoGPT 류 빌더에게는 갈아탈 이유가 충분하다.

 

셋째, 가격 압박이다. Output $14 vs $25 격차는 무시할 수 없다. 대규모로 돌리는 스타트업 입장에서 월 수천만 원 차이가 난다.

 

Anthropic이 다음 카드로 무엇을 꺼낼 가능성이 있는가

 

업계 추측은 두 갈래다. 하나는 Sonnet 4.7의 빠른 출시(가격 경쟁력 + 속도 강화)이고, 다른 하나는 Opus 5 발표(전면전)다. Anthropic은 평소 OpenAI보다 출시 사이클이 보수적이라 Opus 5는 한두 분기 더 걸릴 수 있고, Sonnet 4.7은 다음 달 안에 나올 가능성이 높다고 본다. Reddit r/ClaudeAI에서는 "Claude Code 전용 모델"이 따로 나올 것이라는 추측도 도는데, 신빙성은 낮다.

 

또 하나의 변수는 Anthropic이 Amazon Bedrock에 더 깊이 통합되는 것이다. 엔터프라이즈 시장은 컴플라이언스/SOC2/HIPAA 같은 것이 변수라 OpenAI 단독 능력만으로는 못 뚫는 시장이 크다. 그 영역에서 Claude는 굳건하다.

 

 

출처: theistanbulchronicle.com

 

그래서 갈아타야 하는가? 케이스별 결론

 

상황별로 정리한다. 본인 상황에 맞춰 보면 된다.

 

API로 자동화를 돌리는 사람

 

코딩 에이전트, 자동 PR 리뷰 봇 같은 것을 돌린다면 GPT 5.5로 갈아탈 만하다. SWE-bench 점수, 가격 우위, 에이전트 강점이 합쳐져 명확한 ROI가 나온다. 다만 결과물 안정성이 중요한 프로덕션 작업이라면 일단 mini로 A/B 테스트를 돌려본 후 결정하는 것이 안전하다.

 

ChatGPT Plus / Claude Pro 구독자

 

이 부분은 좀 미묘하다. ChatGPT Plus($20)에서는 풀 5.5를 쓸 수 없으니 갈아탈 이유가 약하다. Claude Pro($20)를 쓰는 사람은 이번에 굳이 갈아탈 필요가 없다. 글쓰기/일반 대화 위주라면 Claude가 여전히 좋다. 코딩 위주라면 Cursor나 GitHub Copilot이 GPT 5.5 백엔드로 깔리니, 그쪽을 통해 쓰는 것이 가성비가 좋다.

 

둘 다 쓰는 것이 답인 케이스

 

솔직히 내가 보기엔 이것이 정답이다. 코드/에이전트는 GPT 5.5, 글쓰기/긴 문서/리서치는 Claude로 분업하는 것이 가장 효율적이다. API라면 라우터 한 번 짜놓고 작업 종류별로 자동 분기시키면 된다. ChatGPT Plus + Claude Pro 동시 구독해도 월 $40인데, 둘 중 하나만 쓰다가 답답해하는 것보다는 낫다.

 

GPT 5.5 리뷰 핵심 정리 — 결국 갈아탈 것인가 말 것인가

 

길게 썼는데 핵심만 다시 추리면 다음과 같다.

 

  • GPT 5.5 리뷰 종합: 코딩(SWE-bench 74.5)과 추론(AIME 94.3) 영역에서 Claude Opus 4.7을 턱밑까지 추격, 일부 추월. 멀티모달과 1M 컨텍스트가 추가되었다.
  • 가격: Output $14/1M로 Claude Opus($25)의 56%. 가성비로는 OpenAI의 승리다.
  • 실사용 후기: 코드/에이전트는 GPT 5.5 우위, 글쓰기/긴 문서 안정성은 Claude 우위. 환각 이슈는 둘 다 여전하다.
  • Anthropic 위기인가?: 진짜 망한 것은 절대 아니지만, 처음으로 가격과 벤치 양쪽 모두 밀린 분기다. Sonnet 4.7의 빠른 발표가 카운터로 유력하다.
  • 결론: 아직 Anthropic이 망한 것은 아니지만, 이번에는 OpenAI가 잘 때린 것으로 보인다.

 

직접 써보고 싶다면 OpenAI 콘솔과 Anthropic 콘솔에서 평가판 크레딧을 받아 같은 프롬프트로 돌려보면 답이 나온다. 같은 작업을 던져놓고 결과물, 토큰 비용, 응답 시간 세 가지만 비교해도 본인의 워크플로우에 무엇이 맞는지 30분이면 판단된다. GPT 5.5 리뷰는 어차피 남의 후기일 뿐이고, 본인 작업에 맞는지는 직접 돌려봐야 진짜 답이 나온다.

728x90
반응형
Share Link
reply
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31