본문 바로가기

Bert와 GPT

(2)
2장. 문장을 작은 단위로 쪼개기 핵심 키워드: 토큰화, 바이트 페어 인코딩 토큰화(tokenization)란 문장을 토큰 시퀀스로 나누는 과정입니다. 수행 대상에 따라 문자, 단어, 서브워드 등 세 가지 방법이 있습니다. 토큰화를 수행하는 프로그램을 토크나이저(tokenizer)라고 합니다. 대표적인 한국어 토크나이저로는 은전한닢(mecab), 꼬꼬마(kkma) 등이 있습니다. 토큰화 뿐만아니라 품사부착까지 수행합니다. 토큰화 방식에는 3가지 방식이 있습니다. 1. 단어 단위 토큰화 - 단어(어절) 단위로 토큰화를 수행할 수 있습니다. - 공백으로 분리하면 별도로 토크나이저를 쓰지 않아도 된다는 장점이 있지만, 어휘 집합(vocabulary)의 크기가 매우 커질 수 있습니다. - 만약 은전한닢과 같은 학습된 토크나이저를 사용하면 어휘 ..
1장. 처음 만나는 자연어 처리 모델은 어떤 입력을 받아 어떤 처리를 수행하는 함수 입니다. 즉, 모델은 어떤 입력을 받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 입니다. 딥러닝이란, 데이터 패턴을 스스로 익히는 인공지능의 한 갈래 입니다. 여기에서 딥(deep)이란 많은 은닉층을 사용한다는 의미 입니다. 딥러닝 기반 자연어 처리 모델의 예시로는 Bert와 GPT 등이 있습니다. 학습이란, 출력이 정답에 가까워지도록 모델을 업데이트 하는 과정을 말합니다. 사람이 만든 정답 데이터로 모델을 학습하는 방법을 '지도학습(supervised learning)' 이라고 합니다. 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법을 '자기지도 학습(self-supervised learning)' 이라고 합니다. 트랜스퍼..