Content Menu

DevNinja

프로필사진
  • Write
  • Manage
  • 방명록

DevNinja

검색하기 폼
  • 분류 전체보기 (241) N
    • AI 인공지능 (21) N
      • LLM (7)
      • AI Environment (5)
      • AI Vision (12)
      • Research (5)
      • OCR (0)
      • NLP (8)
    • DevOps (65) N
      • Docker (3)
      • Kubernetes (31)
      • Hadoop (5)
      • WSL2 (2)
      • GitLab (8)
      • 네트워크 (2)
      • UI 관리 툴 (1)
      • 모니터링 (1)
      • 기타 (7)
    • 백엔드 (29) N
      • 프로그래밍 기법 (7)
      • 성능 최적화 (8)
      • 개발 (10)
    • 데이터 베이스 (6)
      • MySQL (3)
      • Milvus (1)
      • Postgres (1)
    • 데이터 분석 (4)
    • python (8)
    • 알고리즘 (10)
      • 백트래킹 (1)
      • 동적 계획법 (2)
      • 그리디 (2)
      • DFS BFS (2)
      • 이진탐색 (1)
      • 최단경로 (2)
    • 프런트엔드 (23) N
      • 아키텍처 (1)
      • 클린코드 (7)
      • Chrome Extension (0)
      • Javascript (2)
      • Framework (4)
      • Library (3)
      • TIP (2)
    • 정보보안 (5) N
      • 네트워크 (1)
      • 애플리케이션 (1)
      • 암호학 (1)
    • 외부 API (2)
      • 구글번역 (2)
    • 회사생활 (3) N
      • 재택근무 (0)
      • 하드웨어 (3) N
    • 자격증 (1)
      • CKA 자격증 (1)
    • 소프트웨어 (2)
    • 토이 프로젝트 (3)
    • 기술 블로그 리뷰 (1)
    • IT 뉴스 이것저것 (7) N
    • 끄적끄적 (4) N
    • 개발 방법론 (1) N
    • 개발 지식in (1) N
  • Visite

바이트 페어 인코딩 (BPE - Byte Pair Encoding)

기본 개념 UNK : 단어 사전에 없는 단어란 의미에서 해당 토큰을 UNK(Unknown Token)라고 표현한다. OOV : 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황을 OOV(Out-Of-Vocabulary) 문제라고 한다. 서브워드 분리(Subword segmenation) 작업은 하나의 단어를 더 작은 단위의 의미있는 여러 서브워드들(Ex) birthplace = birth + place)의 조합으로 구성하여 OOV나 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있는 방법이다. BPE (Byte Pair Encoding) BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘 BPE은 기본적으로 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 ..

AI 인공지능/NLP 2022. 9. 8. 09:58
« 1 »
«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

티스토리툴바