NLP5 fairseq를 활용한 기계 번역 데이터 준비 root@server:~# ls -al /home/data -rw-rw-r-- 1 data data 175393 8월 30 08:40 test.en -rw-rw-r-- 1 data data 247383 8월 30 08:40 test.ko -rw-rw-r-- 1 data data 15706983 8월 30 08:40 train.en -rw-rw-r-- 1 data data 21556330 8월 30 08:40 train.ko -rw-rw-r-- 1 data data 184784 8월 30 08:40 valid.en -rw-rw-r-- 1 data data 252103 8월 30 08:40 valid.ko 데이터 전처리 바이너리로 변환, 딕셔너리 구축한다. root@server:~# fairse.. 2022. 8. 31. 한글 형태소 분석기 종류 한글 형태소 분석기 (KoNLPy) 1. Okt (Open Korea Text) from konlpy.tag import Okt okt = Okt() text = "가장 유명한 100가지 명언. 하루에 3시간을 걸으면 7년 후에 지구를 한바퀴 돌 수 있다. " print(okt.morphs(text)) print(okt.pos(text)) print(okt.nouns(text)) # ['가장', '유명한', '100', '가지', '명언', '.', '하루', '에', '3시간', '을', '걸으면', '7년', '후', '에', '지구', '를', '한', '바퀴', '돌', '수', '있다', '.'] # [('가장', 'Noun'), ('유명한', 'Adjective'), ('100', 'Numbe.. 2022. 8. 31. NLP 토큰화 (Tokenization) 처리 방법 토큰화란? 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고한다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 한다. 다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다. from nltk.tokenize import word_tokenize text = "God is Great! I won a lottery." print(word_tokenize(text)) ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lotte.. 2022. 8. 31. 기계 번역의 정의 기계 번역이란? 기계 번역은 인공 지능을 사용하여 사람의 개입 없이 한 언어에서 다른 언어로 텍스트를 자동으로 번역하는 프로세스이다. 현대적 기계 번역은 단순한 단어 대 단어 번역을 넘어 원래 언어 텍스트의 전체 의미를 대상 언어로 전달한다. 기계 번역 이점 자동 번역 지원 기계 번역은 전문적인 번역가들에게 좋은 출발점을 제공한다. 번역을 자동으로 실행한 다음, 사후 편집을 위해 번역가에게 보내는 설정이 있다. 속도와 번역량 기계 번역은 거의 즉각적으로 수백만 개의 단어를 번역하면서 매우 빠르게 작동한다. 실시간 채팅이나 대규모 법률 사례와 같은 대량의 데이터를 번역할 수 있다. 다양한 언어 선택 많은 주요 기계 번역 공급자는 50~100개 이상의 언어를 지원한다. 경제적인 번역 기계 번역은 기본적이지만.. 2022. 8. 31. 기계 번역 - 오픈 소스 벤치마킹 기계 번역이란? NLP는 컴퓨터가 사람의 언어를 이해하는 목표를 가진다. 자연어는 생략과 중의성이 많아 컴퓨터가 이해하기 어렵다. 기계 번역 오픈 소스 이름 회사 언어 및 프레임워크 Transformers HuggingFace Pytorch, Tensorflow Fairseq Facebook Pytorch Tensor2tensor Google Tensorflow OpenNMT-py OpenNMT Pytorch Sockeye Amazon MXNet Marian Microsoft C++ 2022. 8. 9. 이전 1 다음 728x90 반응형