자연어 처리

문장(시계열수치) 입력 다중 클래스 분류 모델(23.07.18수업)

J-Chris 2023. 7. 18. 19:23

 

 

Ch11. 문장(시계열수치) 입력 다중 클래스 분류 모델

  • 순서
  • 다중클래스 분류를 위한 데이터셋 생성
  • 여러가지 다중클래스 분류 모델을 구성 및 학습
  • 이 모델들은 문장 혹은 시계열수치로 타입을 분류하는 문제에 활용될 수 있습니다.

 

  1. 데이터셋 준비

 

  1. 로이터에서 ~

 

  1. 모델 준비
  • 문장을 입력하여 다중클래스 분류를 하는 모델
  • 다층퍼셉트론 신경망 모델
  • 순환신경망 모델
  • 임베딩 레이어 
  • Embedding(20000, 128, input_length=200) 
  • 첫번째 인자 (input_dim) : 입력 벡터 크기 
  • 두번쨰 인자 (output_dim) : 출력되는 벡터 크기 

예제 3. 순환 신경망

 

과적합이 된 이유 (2가지)

  1. 데이터의 양이 적거나
  2. 데이터의 품질이 좋지 않거나

카테고리별로 240개 밖에 없기 때문에 

데이터양도 하이퍼파라미터이다.

데이터 몇 개 이상이라는 것은 정확히 정하기 어렵다 

최소 성능이 10만개 적음

 

Loss 값은 0에 가까워질수록 좋은 값이다.

  • 0에서 멀수록 모델 성능이 좋지 않음
  • Loss 정답값과 예측값의 차이 비율을 나타낸다