공적말하기 실습 및 평가 데이터
질문①
에세이 글 평가 AI 모델의 task는 분류일까 회귀일까?
답변①
에세이 글 평가 AI 모델의 task는 주로 회귀(Regression)입니다. 이 모델은 학생들의 글에서 다양한 측면을 고려하여,
점수를 예측하거나 부여합니다. 점수는 연속적인 실수 값으로 나타내기 때문에, 회귀 모델을 사용하여 예측하는 것이 적절합니다.
그러나 일부 모델에서는 글의 평가를 분류(Classification) 문제로 취급하는 경우도 있습니다.
이 경우, 글의 특성에 따라 여러 등급(예: A, B, C, D, F) 중 하나를 예측하도록 모델을 학습시킵니다.
따라서 모델의 task는 회귀일 수도 있고 분류일 수도 있습니다.
질문②
quadratic weighted kappa는 데이터가 편향되어 있을 때 쓸 수 있는 모델 평가지표가 될까 ?
답변②
Quadratic weighted kappa(QWK)는 모델 성능을 평가하기 위한 지표 중 하나입니다. QWK는 예측된 값과 실제 값 간의 일치도를 측정하며, 일반적으로 분류 문제에서 사용됩니다. 그러나 QWK는 데이터가 균형잡혀 있을 때 가장 잘 작동합니다. 데이터가 편향되어 있는 경우, QWK를 사용하면 잘못된 결과를 얻을 수 있습니다.
따라서 데이터가 편향되어 있는 경우, 다른 평가 지표를 고려해보는 것이 좋습니다. 예를 들어, AUC나 ROC 곡선은 데이터가 편향되어 있을 때도 잘 작동합니다. 또한, 정확도(Accuracy)나 정밀도(Precision)와 같은 지표도 사용할 수 있습니다.
결론적으로, 데이터가 편향되어 있는 경우 QWK를 사용하면 잘못된 결과를 얻을 수 있기 때문에, 다른 평가 지표를 고려하는 것이 좋습니다.
질문③
에세이 글 평가에서 모델 성능 평가 지표로 활용할 수 있는 것은 어떤 것이 있을까 ? 회귀인지, 분류인지에 따라 모델 평가지표는 어떻게 달라지는 것일까?
답변③
에세이 글 평가에서 모델 성능을 평가하기 위해 사용할 수 있는 지표는 다양합니다. 회귀(Regression) 모델과 분류(Classification) 모델에 대해 각각 알아보겠습니다.
1. 회귀 모델의 평가 지표:
- 평균 제곱 오차 (Mean Squared Error, MSE): 예측값과 실제값 사이의 평균 제곱 차이를 계산합니다. 작을수록 좋은 성능을 의미합니다.
- 평균 절대 오차 (Mean Absolute Error, MAE): 예측값과 실제값 사이의 평균 절대 차이를 계산합니다. MSE와 유사하지만 제곱이 없으므로 큰 오차에 민감하지 않습니다.
- R-제곱 (R-Squared): 예측값이 실제값을 얼마나 잘 설명하는지를 나타내는 지표입니다. 0에서 1 사이의 값으로, 1에 가까울수록 좋은 모델입니다.
2. 분류 모델의 평가 지표:
- 정확도 (Accuracy): 전체 예측 중 올바르게 예측한 비율을 계산합니다. 클래스 간 비율이 균형있을 때 사용하기 적합한 지표입니다.
- 정밀도 (Precision): 양성으로 예측한 샘플 중 실제로 양성인 비율을 계산합니다. 양성 예측의 정확성을 측정하는 지표로 사용됩니다.
- 재현율 (Recall): 실제 양성인 샘플 중 양성으로 예측한 비율을 계산합니다. 양성 샘플을 놓치지 않는 능력을 측정하는 지표로 사용됩니다.
- F1 점수 (F1 Score): 정밀도와 재현율의 조화 평균으로 계산되는 지표입니다. 불균형한 클래스 분포에서 유용하게 사용됩니다.
회귀 모델과 분류 모델은 예측 문제의 성격에 따라 다른 평가 지표를 사용합니다. 회귀 모델은 연속적인 값을 예측하므로 MSE, MAE, R-제곱 등의 지표를 활용합니다. 반면에 분류 모델은 클래스 레이블을 예측하므로 정확도, 정밀도, 재현율, F1 점수 등이 주로 사용됩니다. 평가 지표의 선택은 모델의 목적과 데이터의 특성에 따라 결정되어야 합니다.
질문④
Quadratic weighted kappa(QWK)는 분류에 대한 학습모델 평가지표인거야? 아니면 회귀에 대한 학습모델 평가지표인거야?
답변④
Quadratic weighted kappa (QWK)는 주로 분류(Classification)에 대한 학습 모델 평가 지표로 사용됩니다. QWK는 예측된 클래스와 실제 클래스 간의 일치도를 측정하는 지표입니다. 주로 다중 클래스 분류 문제에서 사용되며, 클래스 간의 순서 또는 계층성이 있는 경우에 유용합니다.
QWK는 분류 모델의 성능을 평가하고 비교하는 데 사용됩니다. 예를 들어, 의료 진단 분류 모델의 성능을 평가하거나 자연어 처리 모델이 문서를 다중 클래스로 분류하는 능력을 평가하는 등의 경우에 QWK를 사용할 수 있습니다.
하지만 회귀(Regression)에 대한 학습 모델 평가에는 QWK가 일반적으로 사용되지 않습니다. 회귀 모델의 경우, 주로 평균 제곱 오차(Mean Squared Error, MSE)나 평균 절대 오차(Mean Absolute Error, MAE)와 같은 지표가 사용됩니다.
따라서 QWK는 주로 분류 문제에서 사용되는 모델 평가 지표입니다. 회귀 모델의 평가에는 다른 지표를 활용하는 것이 일반적입니다.
KoBERT
1)
논문명 : KoBERT, 나이브베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교
KoBERT 정의 : KoBERT는 SK텔레콤이 자체 개발한 한국어의 분석, 이해, 활용에 특화된 한국어 딥러닝 언어모델로,
영어를 위해 개발된 BERT의 오픈소스 인공지능 아키텍처를 활용하고 있다.
결론 : 사전학습모델 미세조정 기법을 통해 데이터가 매우 적은 상황(문서 500건 이하)에서 나이브베이즈, 로지스틱회귀 보다 성능이 더 나은 심층학습 기반 텍스트 분류 모델인 KoBERT을 구축하였다.
- 유학생의 한국어 쓰기 답안지를 네 개의 점수 구간으로 자동 분류하는 텍스트 분류 문제를 다루었다.
- 네가지 주제(직업, 행복, 경제, 성공)를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행
- KoBERT가 나이브베이즈나 로지스틱 회귀보다 약간 우수한 성능을 보였다.
링크 : https://manuscriptlink-society-file.s3-ap-northeast-1.amazonaws.com/kips/conference/kips2021spring/presentation/KIPS_C2021A0156.pdf
2)
논문명 : 딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 구간 분류
결론 : KoBERT와 KoGPT2라는 사전학습된 두 종류의 한국어 언어모델을 이용한 한국어 쓰기 답안지의 자동 점수 구간 분류 방법을 제안하고 실험을 진행하여 자동 점수 구간 분류 성능을 조사하였다.
- 직업과 행복의 두 주제를 다룬 한국어 답안지를 네 개의 점수 구간으로 자동 분류하는 실험을 진행
- 자동 점수 분류 정확도 : 43.5%~ 65.2%
- 데이터 304건이라는 적은 양의 한국어 쓰기 답안지로 비교적 높은 성능을 달성하였음
- 검증 : k-겹 교차 검증 (학습 데이터를 k 등분함으로써 k차례의 실험을 시행한 뒤 실험 결과를 평균하는 것- 모델의 성능을 객관적으로 평가하기 위함)
링크 : file:///C:/Users/ocare/Downloads/KCI_FI002714132.pdf
3)
논문명 : 한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (2022, KCI 국내학술지)
요약 :
- 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 구성되어 있습니다.
- 총 304편의 답안지로 구성된 실험 데이터 세트를 구축, 답안지는 네 개의 점수 구간으로 구분되어 있으며 평점 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험을 하였습니다.
- KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었으며, 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28% 이었습니다.
링크 : https://koreascience.kr/article/JAKO202210559520489.page
LSTM
1)
논문명 : 한국어 에세이 문항 자동 채점을 위한 딥러닝 알고리즘 탐색 (2022, KCI 국내학술지)
결론 : 딥러닝 계열의 알고리즘인 RNN, LSTM, GRU 알고리즘을 적용하여 에세이 답안 채점을 위한 채점 모델을 구축하여 그 성능을 비교하였다.
- 가장 성능이 우수한 에세이 답안 채점 모델은 RNN, LSTM, GRU 중 LSTM과 GRU 알고리즘 기반의 채점모델이었다.
- 데이터의 특성상 각 단어들이 연속적으로 연결되어있는 문장인 연속형 시퀀스(Sequence)로 구성되어 있다. 따라서, 연속형 시퀀스 처리에 강점이 있는
딥러닝 계열의 알고리즘인 LSTM(장단기 기억) 알고리즘을 사용하여 채점 모델을 구축하였습니다.
링크 : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiOrteView.kci?sereArticleSearchBean.artiId=ART002882962
2)
논문명 : 순환신경망 장단기 기억(LSTM)을 이용한 자동 채점의 가능성 탐색
결론: LSTM을 기반한 다항 분류의 방식으로 점수를 예측하였다. LSTM 학습 모델의 성능을 평가하기 위해 평가 데이터를 이용하여 점수를 예측하고
이를 인간 채점자의 점수와 비교하여 정확도(0.61), 정밀도(0.60), 재현율(0.61), F1(0.60), 카파(0.49), 상관계수(0.50) 등을 살펴보았으며,
그 결과 본 연구에서 사용한 데이터에서 LSTM 모델이 양호한 수준(moderate)의 성능을 보임을 확인하였다.
- LSTM 모델을 활용하여 영어 에세이 데이터를 학습시킨 후, 별도의 평가 데이터를 통해 LSTM의 성능을 평가하였다.
- 에세이 채점 데이터는 다분(多分) 자료의 형태를 가지므로 본 연구에서는 다항 분류가 가능하도록 학습 모델을 구축하여 점수를 예측하였으며,
이러한 LSTM 학습 모델을 여섯 가지 지표(정확성, 정밀도, 재현율, F1, 카파, 상관계수)로 평가하였다.
- 본 연구에서는 총 2,398명의 데이터를 훈련용 데이터와 평가용 데이터로 나누어 학습 및 검증을 실시하였으며,
- LSTM 모델의 학습을 위해 사용한 데이터는 전체 데이터의 80%인 1,918개이다.
- 본 연구에서 기계학습을 위해 사용된 1,918개의 데이터는 분명 기계학습을 위해 충분한 데이터의 양이라 할 수는 없으며,
- 특히 점수대(0점, 1점, 2점)에 따른 데이터의 분포가 고르지 않아 점수대별 예측에도 제한점이 있었다.
링크 : https://www.ejce.org/archive/view_article?pid=jce-24-4-223
RandomForest, KoBERT
논문명 : 충분한 데이터 확보가 힘든 상황에서 인공지능 서논술형 평가 채점모델 구축 방안
결론 : 데이터가 충분하지 못한 상황에서 KoBERT와 같은 언어모델을 사용하여 채점모델을 구축하는 것보다
사전에 정의된 채점자질을 활용하는 방법이 보다 점수 분류 예측에 보다 효과적일 수 있음을 알 수 있다.
링크 : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002889704
최신연구동향 SOTA
SOTA(State-of-the-art) : 현재 최고 수준의 결과를 가진 모델
논문명 : On the Use of BERT for Automated Essay Scoring: Joint Learning of Multi-Scale Essay Representation
- 대부분의 심층신경망 AES(Automated Essay Scoring) 시스템은 LSTM 또는 CNN을 사용합니다.
- LSTM이나 CNN과 같은 심층 신경망은 에세이의 복합적인 특징을 자동으로 발견하고 학습할 수 있어 AES(Automated Essay Scoring)를 수행할 수 있습니다.
- 교사가 에세이를 채점할 때 점수는 단어 수준, 문장 수준, 문단 수준 등 다양한 세부 수준에 의해 영향을 받는 경우가 많습니다. 예를 들어, 세부 특징으로 단어 수, 에세이 구조, 어휘의 숙달 정도, 구문의 복잡성 등이 포함될 수 있습니다.
- 최종 입력 표현은 토큰 임베딩, 세그먼테이션 임베딩, 위치 임베딩의 합 입니다. 자세한 설명은 BERT의 연구에서 찾을 수 있습니다. (Devlin et al., 2019)
- 최신 BERT 기반 에세이 평가 모델 성능은 QWK 0.730을 보였습니다.
링크 : https://arxiv.org/abs/2205.03835
'자연어 처리' 카테고리의 다른 글
Cohen's kappa와 Quadratic Weighted Kappa의 차이점 (0) | 2023.08.02 |
---|---|
문장(시계열수치) 입력 다중 클래스 분류 모델(23.07.18수업) (0) | 2023.07.18 |
상태유지 LSTM 모델 (0) | 2023.07.12 |
순환 신경망 2 (0) | 2023.07.11 |
타이타닉 데이터 분석 및 자연어처리 (RNN) (0) | 2023.07.10 |