NLP 토큰화 (Tokenization) 처리 방법
토큰화란? 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고한다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 한다. 다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다. from nltk.tokenize import word_tokenize text = "God is Great! I won a lottery." print(word_tokenize(text)) ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lotte..