자연어 처리
문장(시계열수치) 입력 다중 클래스 분류 모델(23.07.18수업)
J-Chris
2023. 7. 18. 19:23
Ch11. 문장(시계열수치) 입력 다중 클래스 분류 모델
- 순서
- 다중클래스 분류를 위한 데이터셋 생성
- 여러가지 다중클래스 분류 모델을 구성 및 학습
- 이 모델들은 문장 혹은 시계열수치로 타입을 분류하는 문제에 활용될 수 있습니다.
- 데이터셋 준비
- 로이터에서 ~
- 모델 준비
- 문장을 입력하여 다중클래스 분류를 하는 모델
- 다층퍼셉트론 신경망 모델
- 순환신경망 모델
- 임베딩 레이어
- Embedding(20000, 128, input_length=200)
- 첫번째 인자 (input_dim) : 입력 벡터 크기
- 두번쨰 인자 (output_dim) : 출력되는 벡터 크기
예제 3. 순환 신경망
과적합이 된 이유 (2가지)
- 데이터의 양이 적거나
- 데이터의 품질이 좋지 않거나
카테고리별로 240개 밖에 없기 때문에
데이터양도 하이퍼파라미터이다.
데이터 몇 개 이상이라는 것은 정확히 정하기 어렵다
최소 성능이 10만개 적음
Loss 값은 0에 가까워질수록 좋은 값이다.
- 0에서 멀수록 모델 성능이 좋지 않음
- Loss는 정답값과 예측값의 차이 비율을 나타낸다