한글 형태소 분석기 종류
한글 형태소 분석기 (KoNLPy) 1. Okt (Open Korea Text) from konlpy.tag import Okt okt = Okt() text = "가장 유명한 100가지 명언. 하루에 3시간을 걸으면 7년 후에 지구를 한바퀴 돌 수 있다. " print(okt.morphs(text)) print(okt.pos(text)) print(okt.nouns(text)) # ['가장', '유명한', '100', '가지', '명언', '.', '하루', '에', '3시간', '을', '걸으면', '7년', '후', '에', '지구', '를', '한', '바퀴', '돌', '수', '있다', '.'] # [('가장', 'Noun'), ('유명한', 'Adjective'), ('100', 'Numbe..
2022. 8. 31.
NLP 토큰화 (Tokenization) 처리 방법
토큰화란? 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고한다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 한다. 다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다. from nltk.tokenize import word_tokenize text = "God is Great! I won a lottery." print(word_tokenize(text)) ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lotte..
2022. 8. 31.