Content Menu

DevNinja

프로필사진
  • Write
  • Manage
  • 방명록

DevNinja

검색하기 폼
  • 분류 전체보기 (276) N
    • AI LLM (61)
    • DevOps (68)
    • Backend (36) N
    • Frontend (24)
    • Database (15) N
    • Data Analysis (4)
    • Information Security (5)
    • python (8)
    • Algorithm (10)
    • Tools (3) N
    • Toy Project (3)
    • 개발 방법론 (5)
    • 자격증 (1)
    • 회사생활 (1) N
    • 하드웨어 (3)
    • 소프트웨어 (2)
    • 기술 블로그 리뷰 (1)
    • IT 뉴스 이것저것 (9)
    • 개발 지식in (3)
    • 끄적끄적 (6) N
  • Visite

LLM 양자화란 무엇인가 쉽게 풀어본다 (4bit, GPTQ, AWQ 차이까지)

출처: convexapp.com허깅페이스에 들어가면 Q4_K_M이니 GPTQ니 AWQ니 하는 태그가 덕지덕지 붙어 있는 광경을 본 적이 있을 것이다. 이게 대체 무슨 소린지 알기 어려운데 제대로 설명해 주는 글도 별로 없다. 흔히 "4bit 양자화"라고 하지만 그래서 어쩌라는 것인지 감이 잡히지 않는다.LLM을 돌려 보려고 모델을 다운로드받으려는데 VRAM이 부족하다는 알림이 뜨고, 결국 양자화 버전을 찾아가면 또 무엇이 GPTQ이고 무엇이 GGUF인지 골라야 한다. 이 글을 다 읽고 나면 LLM 양자화 원리부터 방식별 차이, 실제 성능 손실 수준, 상황별 선택 기준까지 한 번에 정리된다. 수식 없이 비유부터 시작한다.양자화란 무엇인가? 쌀을 좁쌀로 바꾸는 작업이다2L 생수통을 500mL 병 4개로 쪼개..

AI LLM 2026. 4. 19. 16:07
« 1 »
«   2026/05   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

티스토리툴바