본문 바로가기

논문[데이터분석] 리딩

EssayGAN: Essay Data Augmentation Based on Generative Adversarial Networks for Automated Essay Scoring

출처 : https://www.mdpi.com/2076-3417/12/12/5803

 

EssayGAN: Essay Data Augmentation Based on Generative Adversarial Networks for Automated Essay Scoring

In large-scale testing and e-learning environments, automated essay scoring (AES) can relieve the burden upon human raters by replacing human grading with machine grading. However, building AES systems based on deep learning requires a training dataset con

www.mdpi.com

 

Discriminator = 판별기 = 판별자 

Generator = 생성기 = 생성자

 

일반 텍스트 GAN은 단어 단위로 텍스트를 생성하지만 EssayGAN은 문장 단위로 에세이를 생성합니다. 
따라서 EssayGAN은 각 단계에서 단어가 아닌 문장을 예측하여 긴 에세이를 작성할 수 있을 뿐만 아니라 
목표 점수 전용 생성기를 여러 개 채택하여 점수 평가 에세이를 작성할 수도 있습니다
실험 결과는 증강 에세이를 사용한 데이터 증강이 AES 시스템의 성능을 향상시키는 데 도움이 된다는 것을 보여줍니다. 
우리는 EssayGAN이 여러 문장으로 구성된 에세이를 생성할 수 있을 뿐만 아니라 에세이에서 문장 간의 일관성을 유지할 수 있다는 결론을 내립니다.


 자동 데이터 증대는 훈련 데이터 부족이라는 고질적인 문제에 대한 해결책이 될 수 있습니다.
EssayGAN의 생성기 수는 에세이 채점에 사용되는 점수 범위에 따라 결정됩니다
EssayGAN에는 여러 생성기가 있기 때문에 각 생성기는 특정 점수를 가진 에세이만 생성하는 데 전념합니다. 이와 함께 판별자는 실제 에세이와 생성된 에세이를 구별하도록 훈련됩니다.
EssayGAN이 토큰이 아닌 문장을 샘플링하는 데는 두 가지 이유가 있습니다. 하나는 GAN이 긴 텍스트를 생성하는 데 어려움이 있다는 것입니다.


최첨단 GAN 모델도 150~650단어 길이의 잘 구성된 에세이를 생성할 수 없습니다.
EssayGAN은 문장 단위로 에세이를 생성할 때 더 긴 에세이를 생성할 수 있습니다.
 다른 이유는 주어진 목표 점수로 에세이를 생성해야 하기 때문입니다. EssayGAN은 목표 점수로 평가된 에세이에서 문장을 샘플링하여 특정 목표 점수에 해당하는 에세이를 쉽게 작성할 수 있습니다.
에세이가 r 등급 루브릭 으로 평가된다고 가정하면 r 생성기와 하나의 판별자를 사용합니다 . r 의 값은 점수 범위의 수로 결정될 수 있습니다.


 EssayGAN은 점수 범위에 따라 여러 개의 생성기를 가지고 있기 때문에 각 생성기는 선택한 점수에 해당하는 에세이를 작성하도록만 훈련될 수 있습니다. Discriminator는 입력된 에세이가 진짜인지 가짜인지 구별하도록 훈련됩니다. 
생성기는 해당 점수로 평가된 일련의 에세이에 대해서만 훈련되기 때문에 주어진 점수로 에세이를 생성할 수 있습니다. 따라서 판별자는 생성된 에세이가 점수에 적합한지 여부를 평가할 필요가 없으며 대신 에세이가 진짜인지 가짜인지 식별하는 데 집중할 수 있습니다.


생성기를 훈련시키기 위해 강화 학습 방법을 채택했습니다. 
Discriminator의 출력 점수는 생성자에게 보상 값으로 제공됩니다. 

생성기는 매개변수가 안정적인 상태에 도달할 때까지 판별자와 번갈아 훈련됩니다.
EssayGAN의 생성기는 문장을 입력으로 사용하므로 모든 문장은 고유한 임베딩 벡터로 표현되어야 합니다.

 

훈련 에세이 데이터의 모든 문장을 나타내기 위해 우리는 109개 언어에 대해 언어 독립적 교차 언어 문장 임베딩을 생성하는 변환기(BERT) 문장 임베딩(LaBSE)의 언어 독립적 양방향 인코더 표현을 채택했습니다[16].
LaBSE는 BERT와 같은 아키텍처를 기반으로 구축된 사전 학습된 모델이며 MLM(마스킹된 언어 모델) 및 TLM(번역 언어 모델)을 사용합니다. 그런 다음 번역 순위 작업을 사용하여 미세 조정됩니다. 결과 모델은 단일 모델에서 다국어 문장 임베딩을 제공할 수 있습니다.
사전에 LaBSE를 이용하여 학습 데이터에 포함된 모든 문장의 문장 임베딩을 계산한 후 이를 문장 임베딩 테이블에 저장하였다.
그 후 임베딩은 다음 섹션에서 설명하는 EssayGAN의 판별자와 생성기에 의해 학습되었다.

판별기(Discriminator)
판별기의 목표는 사람이 작성한 에세이와 생성자가 작성한 에세이를 구별하는 것입니다.
판별기는 그림 2 와 같이 양방향 LSTM 네트워크를 기반으로 구축됩니다 . i  번째 문장 𝑠𝑖, 입력 에세이에서 임베딩 벡터로 변환되며,𝐸𝑠𝑖 , 섹션 3.1 에 설명된 문장 임베딩 테이블을 조회합니다 .

 

그림2. EssayGAN에서 사용되는 판별기의 아키텍처


판별기의 마지막 계층은 입력된 에세이가 실제일 가능성을 나타내는 스칼라 값을 출력합니다.
판별자는 실제 에세이의 경우 가능한 한 1에 가깝고 가짜 에세이의 경우 가능한 한 작은 값을 출력하도록 훈련됩니다. 
판별기의 출력 값은 생성자에게 보상 값으로 제공됩니다.

그림 3은 다음과 같이 점수가 매겨진 에세이를 생성하도록 할당된 i 번째 생성기 의 아키텍처를 보여줍니다.𝑐𝑖.
우리는 지정된 점수로 에세이를 생성하도록 r 생성기를 훈련했습니다. r 값은 채점 기준표에 지정된 점수 범위에 따라 결정됩니다.

 

그림 3. EssayGAN에서 i 번째 생성기 의 아키텍처


생성기의 기본 아키텍처로 LSTM 네트워크를 활용했습니다. 
LSTM 네트워크는 처음에 훈련 데이터 세트를 사용하고 기존의 MLE(Maximum Likelihood Estimation) 방법을 사용하여 문장 수준 언어 모델로 사전 훈련되었습니다.

따라서 사전 훈련된 LSTM 네트워크는 이전에 선택한 문장을 기반으로 가장 가능성이 높은 다음 문장을 예측할 수 있습니다. 사전 훈련 단계 후에, 생성자와 판별자를 차례로 훈련시키기 위해 적대적 훈련이 사용되었습니다.
각 LSTM 셀의 출력 레이어는 특정 문장을 식별할 수 있는 문장 수준의 원-핫 벡터와 동일한 차원을 갖습니다.
다음 문장은 기대확률에 기반한 랜덤 샘플링을 통해 선택됩니다. 새로운 에세이는 LSTM에서 생성된 문장의 순서에 따라 구성됩니다.

Discriminator는 완료된 에세이에 대한 보상 값만 제공할 수 있는 반면 Generator는 모든 샘플링 단계에서 불완전한 에세이에 대한 보상 값을 요구합니다. 
 따라서 모든 샘플링 단계에서 생성자에게 보상하기 위해 몬테카를로 검색[ 17 ]을 적용하여 다음 알려지지 않은 문장을 추정하여 에세이를 완성했습니다.
[ 17 ] Chaslot, G.; Bakkes, S.; Szita, I.; Spronck, P. Monte-Carlo tree search: A new framework for game AI. In Proceedings of the Fourth Artificial Intelligence and Interactive Digital Entertainment Conference (AIIDE), Stanford, CA, USA, 22–24 October 2008; pp. 216–217. [Google Scholar]

K-time monte carlo search 란?
  > 컴퓨터 과학 에서 MCTS ( Monte Carlo tree search )는 일종의 의사 결정 프로세스 , 특히 보드 게임을 하는 소프트웨어 에 사용되는 휴리스틱 검색 알고리즘 입니다 . 

부족한(poor) 생성으로 인한 높은 판별 결과를 피하기 위해 생성자( 알고리즘 1의 g -steps)와 판별자( 알고리즘 1의 d -steps) 간의 훈련 반복 비율을 1:5로 유지했습니다.
AES 도메인의 사실상의 표준 데이터 세트인 ASAP(Automated Student Assessment Prize) 데이터 세트를 사용했습니다.

EssayGAN의 생성기 수는 점수 범위에 따라 다릅니다.
그러나 점수 범위가 더 넓은 프롬프트 1, 2, 7 및 8의 경우 EssayGAN은 생성기가 너무 많아 데이터가 부족합니다.
따라서 EssayGAN의 생성기 수를 5개로 제한했습니다. 

EssayGAN과의 비교를 위해 두 가지 기본 데이터 확대 모델을 설정했습니다. Random은 동일한 목표 점수를 가진 에세이에서 임의로 선택한 문장을 구성하여 새로운 에세이를 생성하는 데이터 증강 모델입니다.
훈련 데이터 세트의 각 에세이에 있는 모든 문장은 순차적으로 번호가 매겨진 것으로 가정했습니다. Random Order는 문장 간의 일관성을 최소화하기 위해 동일한 목표 점수를 가진 에세이에서 내림차순으로 문장을 수집하여 새로운 에세이를 생성합니다.

LaBSE로 인코딩된 문장의 임베딩 벡터 간의 코사인 유사성을 통해 의미론적 유사성을 평가하였다.
우리는 EssayGAN이 하나 또는 두 개의 문장이 잘못 삽입된 사람이 쓴 에세이와 일관성이 거의 동일한 에세이를 생성할 수 있다는 결론을 내립니다.

평가지표
실험에서는 사실상의 표준 메트릭으로 널리 사용되는 QWK(quadratic weighted kappa) 값[ 20 ]을 채택했습니다.
우리의 접근 방식을 평가하기 위해 [ 21 , 22 ] 에서와 같은 방식으로 ASAP 데이터 세트의 5중 교차 검증(fivefold validation)을 수행했습니다 .
- [ 20 ] Chen, H.; He, B. Automated Essay Scoring by Maximizing Human-Machine Agreement. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, WA, USA, 18–21 October 2013; Association for Computational Linguistics: Seattle, WA, USA, 2013; pp. 1741–1752. [Google Scholar]
- [ 21 ] Dong, F.; Zhang, Y.; Yang, J. Attention-based Recurrent Convolutional Neural Network for Automatic Essay Scoring. In Proceedings of the SIGNLL Conference on Computational Natural Language Learning (CoNLL), Vancouver, BC, Canada, 3–4 August 2017; pp. 153–162. [Google Scholar]
- [ 22 ] Tay, Y.; Phan, M.C.; Tuan, L.A.; Hui, S.C. SkipFlow: Incorporating Neural Coherence Features for End-to-End Automatic Text Scoring. In Proceedings of the Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, LA, USA, 2–7 February 2018; pp. 5948–5955.

평가 결과
데이터 증가의 관점에서 EssayGAN은 Random 및 Random Order 보다 더 나은 성능을 보였습니다
우리의 AES 시스템은 [ 8 ] 의 'BERT-CLS'와 동일한 아키텍처를 가지고 있습니다 . 그러나 EssayGAN 덕분에 더 많은 훈련 데이터로 훈련할 수 있습니다
- [ 8 ] Rodriguez, P.U.; Jafari, A.; Ormerod, C.M. Language models and Automated Essay Scoring. arXiv 2019, arXiv:1909.09482. [Google Scholar]

결론 및 의의
EssayGAN은 목표 점수로 평가된 에세이 훈련 세트에서 문장을 샘플링하여 필요한 만큼 많은 에세이를 생성할 수 있습니다.
EssayGAN은 문장 기반으로 텍스트 데이터를 자동으로 확장하려는 최초의 시도입니다. 또한 EssayGAN은 증강 에세이에서 문장 간의 일관성을 유지할 수 있습니다.
EssayGAN의 유용성을 검증하기 위해 AES 작업에 대해 여러 실험을 수행했습니다. 실험 결과 EssayGAN이 감독 학습을 위한 신뢰할 수 있는 데이터 증강 도구임을 입증했습니다.
따라서 EssayGAN은 특히 딥러닝 네트워크 기반의 복잡한 AES 시스템이 필요할 때 훈련 데이터 부족 문제를 완화할 수 있습니다.
또한 여러 생성기를 사용하는 EssayGAN은 단일 생성기를 사용하는 기존 GAN보다 더 높은 품질의 에세이를 보강할 수 있습니다.

 

[참고가 될만한 자료]

A. 충남대학교 EssayGAN 연구보고서 [1, 2]

1. https://www.ntis.go.kr/outcomes/popup/srchTotlRschRpt.do?cmd=get_contents&rstId=REP-2022-01112432958&tapGubun=baseInfo 

 

NTIS > 연구성과 상세검색 > 연구보고서

 

www.ntis.go.kr

2. https://scienceon.kisti.re.kr/commons/util/originalView.do