본문 바로가기

attention2

트랜스포머 (Transformer) 정의 RNN을 사용하지 않고 오직 어텐션의 기술을 활용하여 인코더-디코더를 구현한 구조 시퀀스투시퀀스 (seq2seq) 한계 각 단어간의 유의미한 관계를 분석하는데 어려움 문장이 긴 경우 은닉상태에서 정보가 손실 트랜스포머 (Transformer) 구조 인코더와 디코더라는 단위가 N개로 구성되는 구조 포지셔널 인코딩 (Positional Encoding) 인베딩 벡터 + 단어의 위치 정보 수식 : 인덱스가 짝수인 경우에는 사인 함수의 값을 사용하고 홀수인 경우에는 코사인 함수의 값을 사용 순서 정보가 보존 : 임베딩 값에 포지셔널 인코딩 값을 더하면 같은 단어라고 하더라도 입력값이 달라진다. 어텐션 (Attention) 인코더의 셀프 어텐션 : Query = Key = Value 디코더의 마스크드 셀프 .. 2021. 1. 19.
Attention (어텐션) 정의 입력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고하는 기술 사용이유 첫째, 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생 둘째, RNN의 고질적인 문제인 기울기 소실(Vanishing Gradient) 문제가 존재 즉, 결국 이는 기계 번역 분야에서 입력 문장이 길면 번역 품질이 떨어지는 현상으로 나타나서 이를 위한 대안으로 입력 시퀀스가 길어지면 출력 시퀀스의 정확도가 떨어지는 것을 보정해주기 위한 등장한 기법인 등장 2021. 1. 15.
728x90
반응형