728x90
반응형

기본 개념

    • UNK : 단어 사전에 없는 단어란 의미에서 해당 토큰을 UNK(Unknown Token)라고 표현한다.
    • OOV : 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황을 OOV(Out-Of-Vocabulary) 문제라고 한다.

서브워드 분리(Subword segmenation) 작업은 하나의 단어를 더 작은 단위의 의미있는 여러 서브워드들(Ex) birthplace = birth + place)의 조합으로 구성하여 OOV나 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있는 방법이다.

 

BPE (Byte Pair Encoding)

BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘

BPE은 기본적으로 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 하나의 글자로 병합하는 방식을 수행한다.

aaabdaaabac

aa를 Z로 치환

ZabdZabac
Z=aa

ab를 Y로 치환

ZYdZYac
Y=ab
Z=aa

ZY를 X로 치환

XdXac
X=ZY
Y=ab
Z=aa

 

자연어 처리에서의 BPE(Byte Pair Encoding)

기존의 접근

# dictionary
# 훈련 데이터에 있는 단어와 등장 빈도수
low : 5, lower : 2, newest : 6, widest : 3
# vocabulary
low, lower, newest, widest

BPE 알고리즘을 사용

 

728x90
반응형