[Transformers]
- Architecture
- Decoder
Masked multi-head self-attention
Encoder-decoder multi-head attention
- Output
- Training Parameters
[실습]
- BERT 기반 한국어 감성 분류 모델 개발
- PyTorch Transformer 구현
Decoder
Masked multi-head self-attention
“Auto-regressive” : 이전 정보(regressive)를 이용해서
현재 정보(auto)를 예측
현재 토큰 위치 : t
0 , 1, …., t까지 토큰들의 attention score 계산
t+1, …, mask 씌움 (-infinite)
Auto-regressive : 이전 정보를 이용해서 현재정보를 예측하는 특성
Mask: row index < column index
softmax(- infinite ) = 0
loss를 한번에 업데이트
'자연어 처리' 카테고리의 다른 글
GPT2를 활용한 한국어 언어생성 모델-자연어처리_23-08-21,22 (0) | 2023.08.22 |
---|---|
JinCoding 실무형 NLP Course 4강 : Transformer_23-08-19 (0) | 2023.08.19 |
자연어처리_챗봇_23-08-16 (0) | 2023.08.16 |
자연어처리_챗봇_23-08-14 (0) | 2023.08.14 |
자연어처리_챗봇_23-08-11 (0) | 2023.08.14 |