View

https://openai.com/index/introducing-chatgpt-images-2-0/?video=1184900273
Introducing ChatGPT Images 2.0
ChatGPT Images 2.0 introduces a state-of-the-art image generation model with improved text rendering, multilingual support, and advanced visual reasoning.
openai.com
OpenAI가 또 한 건 했다. 이번엔 ChatGPT Image 2.0이라는 이름으로 이미지 생성 모델을 전면 개편했다. GPT-4o 이미지를 써오던 입장에서 솔직히 조금 지루했다. "또 업데이트인가, 얼마나 달라졌겠나" 싶었는데, 며칠 돌려보니 생각이 달라졌다.
특히 대화형으로 반복 편집하는 부분이 체감상 가장 크다. 예전에는 마음에 들지 않으면 프롬프트를 다시 짜서 새로 뽑아야 했지만, 지금은 "여기 이 부분만 파란색으로 바꿔달라"라고 하면 그대로 고쳐준다. 이것이 진짜 핵심이다.
이 글에서는 ChatGPT Image 2.0이 전작 GPT-4o 이미지 대비 무엇이 달라졌는지, 미드저니 v8/플럭스(Flux 1.1 Pro)/구글 이미젠(Imagen 4)과 비교하면 어느 급인지, 돈을 주고 쓸 만한지 냉정하게 정리한다. 한글 텍스트 렌더링 실제 결과물도 포함했으니 필요한 부분만 골라 읽어도 된다.
ChatGPT Image 2.0은 무엇이며 왜 이렇게 화제인가
기존 GPT-4o 이미지와 무엇이 달라졌는가
OpenAI 공식 발표 기준으로 ChatGPT Image 2.0의 변경점은 크게 세 갈래다. 첫째는 해상도와 속도다. 이전 GPT-4o 이미지는 기본 1024x1024에서 4K급으로 올리려면 별도 업스케일링이 필요했으나, 2.0은 네이티브로 2048x2048급까지 생성한다. 생성 속도도 체감상 30% 정도 빨라졌다. 한 장에 8~12초 걸리던 것이 5~7초로 줄었다.
둘째는 프롬프트 이해도다. GPT 계열의 강점은 원래 LLM 내장이라 긴 프롬프트의 맥락을 잘 잡는다는 점인데, 2.0은 이를 더 강화했다. 예를 들어 "고양이가 카페 창가에 앉아있고, 밖에는 비가 오는데, 고양이는 졸려 보이고, 테이블 위에는 반쯤 마신 라떼가 있다" 같은 긴 설명을 넣으면 요소 하나 빠뜨리지 않고 모두 반영한다. 미드저니는 이런 부분을 여전히 일부 놓치는 경우가 있다.
셋째는 편집 기능이다. 이것이 진짜 이번 업데이트의 킥이다.
핵심 기능 세 가지만 정리
1) 대화형 반복 편집
이전에는 이미지를 한 번 생성하고 마음에 들지 않으면 프롬프트를 수정해서 새로 뽑아야 했다. ChatGPT Image 2.0은 생성된 이미지를 대화창에 띄워놓고 "왼쪽 남자 옷을 파란색 셔츠로 바꿔달라", "배경에 나무 한 그루를 더 추가해달라"는 식으로 수정 요청이 가능하다. 인페인팅/아웃페인팅이 채팅 인터페이스에 녹아들었다고 보면 된다.
2) 텍스트 렌더링 강화
AI 이미지 모델들의 오랜 숙제였던 텍스트 렌더링이 확실히 좋아졌다. 영어는 거의 완벽하고, 한글도 짧은 단어 정도는 깨지지 않고 들어간다. 포스터나 썸네일을 만들 때 "AI가 글자를 이상하게 써놔서 수정하느라 죽겠다"라던 불만이 많이 줄었다.
3) 캐릭터 일관성
같은 캐릭터를 여러 장면에 등장시킬 수 있다. "방금 만든 이 캐릭터로, 다른 포즈 5컷을 만들어달라"고 하면 얼굴과 의상 디테일을 어느 정도 유지해준다. 완벽하지는 않지만, 미드저니 --cref 기능보다는 자연스럽다. 스토리보드나 웹툰 시안을 뽑을 때 쓸 만하다.
ChatGPT Image 2.0을 직접 써봤다 - 프롬프트 3개 테스트
말로만 해서는 의미가 없으니 실제로 돌려봤다. ChatGPT Plus 20달러짜리로 테스트했고, API는 아직 건드리지 않았다.
테스트 1: 한글 텍스트가 들어간 포스터
프롬프트: "90년대 레트로 감성의 한국 영화 포스터. 제목은 '서울의 밤'이고, 밑에 부제로 '여름 한정 상영'. 네온사인 느낌의 서체로."

결과: 5번 돌려서 3번은 한글이 제대로 나왔다. 2번은 '시' 자가 '서'처럼 나오거나 받침이 어긋났다. GPT-4o 이미지 시절에는 10번 중 7번이 망가졌던 것을 생각하면 확실히 좋아졌다. 다만 여전히 확실하지는 않다. 긴 문장(10글자 이상)은 아직 깨지는 확률이 높다.
평가: 한글 두세 단어 포스터는 쓸 만하다. 긴 한글 카피는 아직 포토샵으로 후작업을 해야 한다.
테스트 2: 동일 캐릭터 다른 포즈 시리즈
프롬프트: "파란 후드티 입은 20대 여성, 단발머리, 안경. 이 캐릭터로 '커피 마시는 장면', '달리기 하는 장면', '노트북 앞에서 고민하는 장면' 세 컷을 만들어달라."
결과: 얼굴 윤곽과 헤어스타일은 80% 정도 유지됐다. 안경 디자인은 세 컷에서 조금씩 달라졌다. 후드티 색깔은 일관적이었다. 미드저니 v7 --cref로 동일한 테스트를 해봤을 때는 얼굴 유지율이 60% 정도였는데, ChatGPT Image 2.0이 더 낫다.
다만 한 가지, "세 컷을 한 번에" 요청하면 품질이 살짝 떨어진다. 한 컷씩 따로 요청하고 이어받는 방식이 결과물은 더 좋다.
평가: 웹툰 시안이나 광고 스토리보드 용도로 실전 사용이 가능한 수준이다.
테스트 3: 기존 이미지 편집 (인페인팅)
이전에 뽑아둔 풍경 사진을 업로드하고 "오른쪽 하늘에 열기구 하나를 추가해달라"고 요청했다.
결과: 열기구가 추가되긴 했으나, 빛 방향이 기존 사진과 살짝 맞지 않았다. 그림자 각도가 어긋나는 문제였다. "빛 방향을 맞춰서 다시"라고 요청하니 두 번째 시도에서 자연스러워졌다. 반복 지시로 조정되는 것이 이번 버전의 강점이다.
평가: Photoshop의 생성형 채우기(Generative Fill)와 비슷한 품질이다. 간단한 추가/삭제는 OK지만, 복잡한 합성은 여전히 Photoshop이 더 정밀하다.
ChatGPT Image 2.0 vs 미드저니 v8, Flux 1.1 Pro 비교 결과
테스트 3개로만 판단하기엔 부족하니, 동일 프롬프트로 세 모델을 모두 돌려서 비교한 결과를 정리했다.
비교 테이블
| 항목 | ChatGPT Image 2.0 | Midjourney v8 | Flux 1.1 Pro | Imagen 4 |
| 사진 리얼리즘 | 4/5 | 5/5 | 5/5 | 4.5/5 |
| 일러스트/아트 | 4/5 | 5/5 | 4/5 | 4/5 |
| 프롬프트 이해도 | 5/5 | 3.5/5 | 4/5 | 4.5/5 |
| 텍스트 렌더링(영문) | 5/5 | 3.5/5 | 4.5/5 | 4.5/5 |
| 한글 렌더링 | 3.5/5 | 1/5 | 2/5 | 3/5 |
| 대화형 편집 | 5/5 | 2/5 | 1/5 | 2/5 |
| 캐릭터 일관성 | 4/5 | 3.5/5 | 3/5 | 3.5/5 |
| 가격 접근성 | 5/5 | 3/5 | 3/5 | 3.5/5 |
사진 리얼리즘
미드저니와 플럭스가 여전히 반 보 앞선다. 인물 피부 질감, 머리카락 디테일, 옷 원단 재질 같은 부분에서 차이가 난다. 다만 그 차이가 예전만큼 크지는 않다. 일반 블로그용 썸네일을 만들 때는 구분이 되지 않을 정도다.
프롬프트 이해도
여기서는 ChatGPT Image 2.0이 확실히 앞선다. GPT가 LLM 내장이라 길고 복잡한 프롬프트를 잘 처리한다. 미드저니는 여전히 프롬프트가 길어지면 중간 요소를 놓치는 경우가 있다. 예를 들어 "A가 B를 들고 C를 쳐다보는데 D가 뒤에 있다" 같은 관계 표현에서 ChatGPT 계열이 훨씬 정확하다.
텍스트 렌더링
영문은 플럭스와 ChatGPT Image 2.0이 거의 비슷하게 잘한다. 한글은 ChatGPT Image 2.0이 넷 중에 가장 잘한다. 미드저니는 한글을 거의 쓰지 못한다고 보면 된다.
대화형 편집
이것은 비교가 되지 않는다. ChatGPT Image 2.0 혼자 압도적이다. 미드저니에도 에디터 기능이 있긴 하지만, 마스크를 그려서 인페인팅하는 방식이라 채팅으로 "이 부분을 바꿔달라"고 하는 것과는 사용 경험이 아예 다르다.
가격 대비
ChatGPT Plus 20달러(약 27,000원)에 포함이면 상당한 이점이다. 미드저니는 스탠다드 플랜 30달러/월, 플럭스는 API 호출당 과금이라 이미지 한 장에 0.04달러(약 55원)다. 한 달에 이미지 100장을 쓴다고 치면 미드저니 30달러, 플럭스 4달러, ChatGPT Plus는 GPT의 다른 기능까지 포함해서 20달러다. 이미지 생성만 놓고 보면 플럭스가 싸고, 종합 도구로는 ChatGPT가 유리하다.
ChatGPT Image 2.0을 돈 주고 쓸 만한가, 누구에게 추천하는가
써본 경험을 기반으로 타입별로 정리한다.
블로거/마케터
썸네일, 블로그 삽화, 간단한 포스터를 만들기에는 ChatGPT Image 2.0이 최고다. 일단 대화형 편집 덕분에 "이 색깔만 바꿔달라", "문구 크기를 조금 키워달라"는 요청이 자연스럽다. 포토샵을 몰라도 쓸 만한 결과물을 뽑을 수 있다. ChatGPT Plus 하나로 이미지, 글쓰기, 데이터 분석까지 해결되니 비용 효율도 좋다.
일러스트레이터/디자이너
보조 도구로는 OK이지만, 메인 도구로는 아직 부족하다. 아트 스타일의 섬세함은 미드저니가 여전히 우위다. 다만 시안 단계에서 아이디어를 빠르게 뽑을 때는 ChatGPT Image 2.0을 쓰고, 최종 납품 단계에서 미드저니나 직접 그리기로 가는 워크플로우가 합리적이다.
개발자 (API 사용)
API 비용은 조금 비싼 편이다. 공식 API 가격이 이미지 한 장에 약 0.04~0.08달러(해상도에 따라 다름)로 책정됐다. 플럭스(0.04달러 고정)보다 조금 비싸거나 비슷한 수준이다. 대량 생성(하루 수천 장) 용도라면 플럭스가 유리하고, 품질과 프롬프트 이해도가 중요한 워크플로우라면 ChatGPT Image 2.0이 낫다.
API 통합 시에는 공식 이미지 생성 API 문서 확인이 필수다. 요청 형식이 DALL-E 3 시절과 다르게 통합됐다.
일반 사용자
ChatGPT를 이미 쓰고 있다면 자동으로 업그레이드된다. 별도 결제가 필요 없다. 무료 계정도 제한적으로 Image 2.0을 쓸 수 있다. 유료 전환은 GPT의 다른 기능까지 쓰게 될 때 고려하면 된다.
아쉬운 점과 조심할 사항
좋은 점만 말하면 광고글이 된다. 직접 써보면서 불만스러웠던 포인트도 정리한다.
여전히 부자연스러운 손, 얼굴 일관성의 흔들림
AI 이미지 모델의 고질병인 손가락 6개 문제, Image 2.0도 완전히 해결하지 못했다. 20% 정도는 여전히 어색한 손이 나온다. 클로즈업 얼굴도 두세 번째 컷부터 살짝 달라지는 경우가 있다. 이것은 모든 AI 이미지 모델의 공통 문제라 특별히 ChatGPT만의 단점은 아니다.
저작권/상업적 이용 약관 체크 필요
ChatGPT Image 2.0으로 생성한 이미지의 상업적 이용은 OpenAI 이용약관상 허용된다. 그러나 조건이 있다. 실제 인물을 닮은 이미지, 등록 상표나 캐릭터(디즈니, 마블 등), 저작권이 있는 예술 스타일(특정 작가 화풍) 등은 여전히 리스크가 있다. 특히 한국 저작권법은 AI 생성물의 저작권 인정 범위가 애매해서, 상업 프로젝트에 넣기 전에 법무 검토를 받는 것이 안전하다.
워터마크 C2PA 메타데이터 삽입
ChatGPT Image 2.0으로 생성된 모든 이미지에는 C2PA(콘텐츠 진본성 표준) 메타데이터가 박힌다. EXIF를 보면 "AI로 생성됨" 표시가 남아있다. 파일 변환 시 일부가 제거되는 경우가 있는데, 대놓고 AI임을 숨기고 유통하는 것은 정책 위반이다. 마케팅 이미지로 쓸 때는 "AI 생성" 고지를 붙이는 것이 점점 표준이 되는 분위기다.
요청 필터링이 다소 엄격하다
폭력적이거나 성인 콘텐츠는 당연히 막히지만, 그 외에도 다소 애매한 프롬프트도 거절된다. 예를 들어 "총 든 사람" 같은 것은 맥락에 따라 거절되기도 한다. 미드저니나 플럭스는 상대적으로 널널한 편이다. 이 부분은 OpenAI 정책이라 사용자가 어떻게 할 수 있는 여지가 없다.
한국어 프롬프트 정확도
한국어 프롬프트 입력은 가능하지만, 복잡한 요구일수록 영어로 쓰는 편이 결과 품질이 더 좋다. 내부적으로 영어로 번역해서 처리하는 것으로 추정된다. 한국어 고유 표현(예: "짭짤한 맛의 라면")은 영어로 의역되면서 의미가 살짝 달라질 수 있다. 디테일이 중요한 작업이라면 영어 프롬프트를 권장한다.
앞으로 어떻게 될 것인가
ChatGPT Image 2.0은 단독 이미지 생성기로 보면 미드저니 아래급이다. 그러나 ChatGPT 생태계 안에서의 통합도, 대화형 편집, 프롬프트 이해도를 함께 놓고 보면 전반적 워크플로우로는 최고다. OpenAI의 전략이 "단일 최강 이미지 모델"이 아니라 "ChatGPT 안에서 무엇이든 다 되는 통합 경험"이라는 것이 명확하다.
소라(Sora) 비디오 생성 모델이 같은 계정에서 돌아가게 되면, 이미지→비디오 워크플로우도 챗봇 하나로 모두 처리된다. 미드저니는 이미지 생성 전문가지만 생태계 통합 면에서는 확실히 불리한 포지션이다.
가격 정책도 공격적이다. Plus 20달러에 이미지를 무제한에 가깝게 풀어놓은 것은 미드저니/플럭스 쪽 사용자를 흡수하려는 의도다. 이미지 생성만 필요한 사람은 여전히 미드저니를 쓰겠지만, 이미지 + 글쓰기 + 데이터 분석을 모두 쓰는 사람 입장에서는 ChatGPT Plus 하나로 정리하는 것이 합리적이다.
요약하면 다음과 같다:
- ChatGPT Image 2.0은 단순 텍스트→이미지 툴이 아니라 대화형 이미지 워크플로우 도구다
- 전작 GPT-4o 이미지 대비 해상도, 속도, 편집 기능이 대폭 좋아졌다
- 미드저니 v8의 완전 대체는 아니다. 사진/아트 품질은 미드저니가 여전히 우위다
- 블로거/마케터에게는 가성비가 최고다. 일러스트 프로에게는 보조 도구 레벨이다
- 한글 텍스트 렌더링이 눈에 띄게 개선되었고, 짧은 단어는 쓸 만하다
- 상업적 이용은 가능하지만 약관/저작권 확인이 필수다
2~3개월 뒤에 다시 써보고 업데이트 포스팅을 하나 쓸 예정이다. 이미지 AI 분야는 한 달 단위로 패러다임이 바뀌는 중이라 지금 기준이 6개월 뒤에는 또 바뀔 듯하다.
참고할 만한 글
- GPT-4o 이미지 생성 가이드 - 전작 사용법 정리
- 미드저니 프롬프트 작성 꿀팁 - 비교 테스트 시 참고
- OpenAI 요금제 완전 정리 - Plus/Team/Enterprise 차이
- AI 이미지 저작권 한국 기준 - 상업 이용 전 체크
외부 참고 자료:
'IT 뉴스 이것저것' 카테고리의 다른 글
| Warp 터미널이 결국 오픈소스로 전환되었다, 진짜 써도 되는가? (0) | 2026.04.30 |
|---|---|
| OpenAI GPT 5.5는 왜 갑자기 등장했는가? Anthropic은 긴장해야 하는가? 리뷰를 모아 정리한다 (필자의 리뷰가 아니다) (0) | 2026.04.25 |
| Anthropic이 OpenClaw를 금지했다가 다시 허용한 이유 (0) | 2026.04.22 |
| Addy Osmani가 구글 14년 동안 뽑아낸 21가지 교훈, 한국 개발자 관점으로 해석 (0) | 2026.04.21 |
| Vercel 해킹 사건 정리 — AI 툴 하나 때문에 회사 전체가 털린 사건 (0) | 2026.04.20 |
