본문 바로가기

논문[데이터분석] 리딩

공적말하기 실습 및 평가 데이터 학습 모델 정리- KoBERT,LSTM, SOTA

KoBERT 
1) 
논문명 : KoBERT, 나이브베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교
KoBERT 정의 : KoBERT는 SK텔레콤이 자체 개발한 한국어의 분석, 이해, 활용에 특화된 한국어 딥러닝 언어모델로, 
영어를 위해 개발된 BERT의 오픈소스 인공지능 아키텍처를 활용하고 있다. 
결론 : 사전학습모델 미세조정 기법을 통해 데이터가 매우 적은 상황(문서 500건 이하)에서 나이브베이즈, 로지스틱회귀 보다 성능이 더 나은 심층학습 기반 텍스트 분류 모델인  KoBERT을 구축하였다.
- 유학생의 한국어 쓰기 답안지를 네 개의 점수 구간으로 자동 분류하는 텍스트 분류 문제를 다루었다.
- 네가지 주제(직업, 행복, 경제, 성공)를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행 
- KoBERT가 나이브베이즈나 로지스틱 회귀보다 약간 우수한 성능을 보였다.
링크 : https://manuscriptlink-society-file.s3-ap-northeast-1.amazonaws.com/kips/conference/kips2021spring/presentation/KIPS_C2021A0156.pdf

2)
논문명 : 딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 구간 분류
결론 : KoBERT와 KoGPT2라는 사전학습된 두 종류의 한국어 언어모델을 이용한 한국어 쓰기 답안지의 자동 점수 구간 분류 방법을 제안하고 실험을 진행하여 자동 점수 구간 분류 성능을 조사하였다.
- 직업과 행복의 두 주제를 다룬 한국어 답안지를 네 개의 점수 구간으로 자동 분류하는 실험을 진행 
- 자동 점수 분류 정확도 : 43.5%~ 65.2% 
- 데이터 304건이라는 적은 양의 한국어 쓰기 답안지로 비교적 높은 성능을 달성하였음
- 검증 : k-겹 교차 검증 (학습 데이터를 k 등분함으로써 k차례의 실험을 시행한 뒤 실험 결과를 평균하는 것- 모델의 성능을 객관적으로 평가하기 위함)
링크 : file:///C:/Users/ocare/Downloads/KCI_FI002714132.pdf

3) 
논문명 : 한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (2022, KCI 국내학술지)
요약 :  
-  답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 구성되어 있습니다.
- 총 304편의 답안지로 구성된 실험 데이터 세트를 구축, 답안지는 네 개의 점수 구간으로 구분되어 있으며 평점 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험을 하였습니다.
- KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었으며, 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28% 이었습니다.
링크 : https://koreascience.kr/article/JAKO202210559520489.page


LSTM
1) 
논문명 : 한국어 에세이 문항 자동 채점을 위한 딥러닝 알고리즘 탐색 (2022, KCI 국내학술지)
결론 : 딥러닝 계열의 알고리즘인 RNN, LSTM, GRU 알고리즘을 적용하여 에세이 답안 채점을 위한 채점 모델을 구축하여 그 성능을 비교하였다.
- 가장 성능이 우수한 에세이 답안 채점 모델은 RNN, LSTM, GRU 중 LSTM과 GRU 알고리즘 기반의 채점모델이었다.
- 데이터의 특성상 각 단어들이 연속적으로 연결되어있는 문장인 연속형 시퀀스(Sequence)로 구성되어 있다. 따라서, 연속형 시퀀스 처리에 강점이 있는
딥러닝 계열의 알고리즘인 LSTM(장단기 기억) 알고리즘을 사용하여 채점 모델을 구축하였습니다.

링크 : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiOrteView.kci?sereArticleSearchBean.artiId=ART002882962 

2) 
논문명 : 순환신경망 장단기 기억(LSTM)을 이용한 자동 채점의 가능성 탐색
결론: LSTM을 기반한 다항 분류의 방식으로 점수를 예측하였다. LSTM 학습 모델의 성능을 평가하기 위해 평가 데이터를 이용하여 점수를 예측하고 
이를 인간 채점자의 점수와 비교하여 정확도(0.61), 정밀도(0.60), 재현율(0.61), F1(0.60), 카파(0.49), 상관계수(0.50) 등을 살펴보았으며, 
그 결과 본 연구에서 사용한 데이터에서 LSTM 모델이 양호한 수준(moderate)의 성능을 보임을 확인하였다.
- LSTM 모델을 활용하여 영어 에세이 데이터를 학습시킨 후, 별도의 평가 데이터를 통해 LSTM의 성능을 평가하였다.
- 에세이 채점 데이터는 다분(多分) 자료의 형태를 가지므로 본 연구에서는 다항 분류가 가능하도록 학습 모델을 구축하여 점수를 예측하였으며,
 이러한 LSTM 학습 모델을 여섯 가지 지표(정확성, 정밀도, 재현율, F1, 카파, 상관계수)로 평가하였다.
- 본 연구에서는 총 2,398명의 데이터를 훈련용 데이터와 평가용 데이터로 나누어 학습 및 검증을 실시하였으며, 
- LSTM 모델의 학습을 위해 사용한 데이터는 전체 데이터의 80%인 1,918개이다.
- 본 연구에서 기계학습을 위해 사용된 1,918개의 데이터는 분명 기계학습을 위해 충분한 데이터의 양이라 할 수는 없으며, 
- 특히 점수대(0점, 1점, 2점)에 따른 데이터의 분포가 고르지 않아 점수대별 예측에도 제한점이 있었다.
링크 : https://www.ejce.org/archive/view_article?pid=jce-24-4-223 


RandomForest, KoBERT 
논문명 : 충분한 데이터 확보가 힘든 상황에서 인공지능 서논술형 평가 채점모델 구축 방안
결론 : 데이터가 충분하지 못한 상황에서 KoBERT와 같은 언어모델을 사용하여 채점모델을 구축하는 것보다
사전에 정의된 채점자질을 활용하는 방법이 보다 점수 분류 예측에 보다 효과적일 수 있음을 알 수 있다.
링크 : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002889704 


 
최신연구동향 SOTA 
SOTA(State-of-the-art) : 현재 최고 수준의 결과를 가진 모델
논문명 : On the Use of BERT for Automated Essay Scoring: Joint Learning of Multi-Scale Essay Representation
- 대부분의 심층신경망 AES(Automated Essay Scoring) 시스템은 LSTM 또는 CNN을 사용합니다.
- LSTM이나 CNN과 같은 심층 신경망은 에세이의 복합적인 특징을 자동으로 발견하고 학습할 수 있어 AES(Automated Essay Scoring)를 수행할 수 있습니다.
- 교사가 에세이를 채점할 때 점수는 단어 수준, 문장 수준, 문단 수준 등 다양한 세부 수준에 의해 영향을 받는 경우가 많습니다. 예를 들어, 세부 특징으로 단어 수, 에세이 구조, 어휘의 숙달 정도, 구문의 복잡성 등이 포함될 수 있습니다. 
- 최종 입력 표현은 토큰 임베딩, 세그먼테이션 임베딩, 위치 임베딩의 합 입니다. 자세한 설명은 BERT의 연구에서 찾을 수 있습니다. (Devlin et al., 2019)
- 최신 BERT 기반 에세이 평가 모델 성능은 QWK 0.730을 보였습니다. 
링크 : https://arxiv.org/abs/2205.03835