바이트 페어 인코딩 (BPE - Byte Pair Encoding)
기본 개념 UNK : 단어 사전에 없는 단어란 의미에서 해당 토큰을 UNK(Unknown Token)라고 표현한다. OOV : 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황을 OOV(Out-Of-Vocabulary) 문제라고 한다. 서브워드 분리(Subword segmenation) 작업은 하나의 단어를 더 작은 단위의 의미있는 여러 서브워드들(Ex) birthplace = birth + place)의 조합으로 구성하여 OOV나 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있는 방법이다. BPE (Byte Pair Encoding) BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘 BPE은 기본적으로 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 ..