[Article] CLES : 에세이 점수 예측을 위한 대조학습 기반 BERT 모델

논문[데이터분석] 리딩

[Article] CLES : 에세이 점수 예측을 위한 대조학습 기반 BERT 모델

J-Chris 2023. 7. 11. 16:07

CLES-BERT: Contrastive Learning-based BERT Model for Automated Essay Scoring

Bert 모델 + 대조학습을 활용한 모델 ?
대조 학습 손실 함수 추가 -> 효과적인 에세인 임베딩 표현을 구현
점수별 에세이의 평균 임베딩을 대조 학습에서의 샘플로 사용하는 방식 -> 양성과 음성 샘플 선택
ASAP 에세이 데이터셋 사용
CLES-BERT 모델이 기존 BERT 모델보다 최대 3% 정확도 향상
BERT를 사용하면 BERT에서 파생된 문장 표현은 작은 영역 안에 매핑되어 서로 의미가 다를지라도 높은 유사성을 보이게 된다는 문제점이 있음
문제 해결방법 : 대조학습 Constrastive Learning
양성샘플 : 최근에는 사전 학습시에 대조 학습을 사용하여 성능으 향상하거나 한국어의 경우 어미를 바꿔서 양성 샘플을 생성하는 연구가 진행됨
음성샘플 : 입력 데이터와 서로 다른 클래스의 데이터(또는 서로 다른 의미를 갖는 데이터)를 음성 샘플로 설정
점수별 에세이의 평균 임베딩을 양성과 음성 샘플로 구성

점수별 에세이의 평균 임베딩을 사용하는 이유 : 같은 점수의 에세이일지라도 에세이에 담긴 내용은 다를 수 있음
(하지만, 에세이 점수가 서로 같다면 두 에세이의 특징은 같을 것이다)
에세이의 3가지 특징(feature) :
1) 이해하기 쉬운 글인가?
2) 명확한 표현을 사용하였는가?
3) 주장에 대한 근거가 타당한가? 와 같이 글의 문법과 문체를 고려한 특징이라고 할 수 있음

새로운 방식 사용
양성 샘플 : 입력 데이터와 같은 점수의 평균 에세이 임베딩으로 선택되어 같은 점수의 문법과 문체가 입력 임베딩과 가까워지도록 유도함
음성 샘플 : 에세이 점수 범위의 중앙값을 기준으로 양성과 음성 샘플을 분리하여 선택
대조학습을 BERT 모델에 적용
방법1: 기존의 교차 엔트로피 손실 함수에 대조 학습 손실 함수를 추가하여 손실 함수를 재조정하였음
방법2: ASAP(Automated Student Assessment Prize) 데이터셋을 이용하여 실험 결과, 기존 Bert모델 보다 정확도 3% 향상
연구기여도 : 대조 학습시 제안 방안의 양성과 음성 샘플의 분류 기준과 점수별 에세이의 평균 임베딩을 생성하여 점수별 에세이의
공통된 특징인 문법과 문체를 고려하는 것이 에세이 임베딩 표현에 효과적임을 알 수 있다.

제안 방안 3가지 :
1) 대조 학습에서 샘플을 구성하는 방법
2) 양성 샘플과 음성 샘플의 선택 기준
3) 제안 모델의 손실 함수에 대해 설명

'대조학습' 이란 ?
- 의미가 유사한 쌍의 벡터는 서로 가깝게 유도하고 의미가 다른 쌍의 벡터는
멀리 떨어지게 유도하여 효과적인 이미지 또는 문장 표현을 학습하도록 모델을 훈련하는 학습 방법이다.

1) 대조 학습에서 샘플을 구성하는 방법
- 에세이 점수가 서로 같다면 두 에세이의 특징은 유사할 것이다.
- 에세이의 내용이 아닌 점수별 에세이의 공통적인 특징을 고려하는 벡터를 샘플로 구성

ASAP 데이터셋에서 프롬프트 1의 경우 에세이당 평균 단어 수는 350개이다.
에세이 당 하나의 레이블링 된 점수를 라벨값으로 사용한다.

교차 엔트로피 손실 함수는 클래스마다 추정된 확률값에 대하여 정답 클래스에 해당하는
추정 확률값이 1에 가까워질수록 손실 값은 작아지는 특성이 있다.
따라서 입력값으로 에세이가 들어가면 레이블링된 점수 값으로 분류되도록 학습을 진행하게 된다.

대조 학습 시 입력 데이터의 임베딩은 양성 샘플과는 가까워지고 음성 샘플과는 멀어지게 학습을 진행하게 된다.

ASAP 데이터셋은 8개의 서로 다른 프롬프트로 구성되어 있다.
프롬프트 7~8은 점수 범위가 0~30과 0~60으로 넓으므로 분류 문제를 해결하기에는 적절하지 못하기 때문에 제외
따라서 1~6의 에세이 프롬프트만 사용하여 실험을 진행
학습과 테스트셋은 8:2 비율로 분할
에세이 점수가 높을수록 명확하고 설득력 있는 에세이고 낮을수록 모호하거나 이해하기 어려운 에세이다.

Python 3.7, PyTorch 1.8, CUDA 11.1을 사용
사전 학습 모델 : BERT-base 모델 사용
GPU - NVIDIA GeForce RTX 3090

논문 정보

The Journal of Korean Institute of Information Technology - Vol. 21, No. 4, pp. 31-43
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Apr 2023
Received 06 Mar 2023 Revised 03 Apr 2023 Accepted 06 Apr 2023
DOI: https://doi.org/10.14801/jkiit.2023.21.4.31

기타 [참고 자료]

Q1. 질문
Bert로 발표자료 평가 규칙을 통해 점수화를 할 수 있을까 ?

A1 .답변
네, BERT(Bidirectional Encoder Representations from Transformers)는 자연어 처리에 사용되는 언어 모델로, 발표자료 평가 규칙을 점수화하는 데에도 활용할 수 있습니다.
BERT는 사전 훈련된 언어 모델로, 문맥을 고려하여 단어나 문장을 이해하고 표현할 수 있습니다.
따라서, 발표자료의 내용이나 문맥에 따라 BERT를 활용하여 각 규칙을 평가하고 점수를 부여할 수 있습니다.
예를 들어, 발표자료의 명확성, 구조, 일관성, 그래픽 디자인 등을 평가하는 규칙을 BERT를 이용하여 자동화된 점수화 프로세스를 구축할 수 있습니다. BERT는 텍스트 데이터를 입력으로 받아 의미론적인 표현을 추출하므로, 이를 활용하여 발표자료의 품질을 측정하고 점수를 계산할 수 있습니다.
다만, BERT를 사용하여 발표자료 평가를 자동화하는 경우, 적절한 훈련 데이터와 정확한 평가 규칙을 설정하는 것이 중요합니다. 또한, BERT 모델의 성능과 한계를 고려하여 결과를 해석해야 합니다.

Q2. 질문
어떻게 Bert로 발표자료 평가 규칙을 점수화할 수 있을까 ?

A2. 답변
BERT를 사용하여 발표자료 평가 규칙을 점수화하는 방법은 다음과 같을 수 있습니다:

1. 데이터 수집 및 전처리: 평가에 사용할 발표자료 데이터를 수집하고,
각 발표자료의 평가 규칙에 대한 레이블 또는 점수를 준비합니다.
데이터는 가능한 한 다양한 유형의 발표자료를 포함하도록 선택해야 합니다.
2. BERT 모델 미세 조정: 사전 훈련된 BERT 모델을 가져와서 발표자료 평가에 맞게 미세 조정합니다.
이를 위해 발표자료 데이터를 BERT 모델에 입력으로 주고, 관련된 특징을 학습시킵니다.
이렇게 하면 BERT 모델이 발표자료의 의미론적 표현을 이해하고 점수화에 활용할 수 있게 됩니다.
3. 평가 규칙 특징 추출: BERT 모델을 사용하여 각 발표자료에서 평가 규칙과 관련된 특징을 추출합니다. (이게 중요할듯)
예를 들어, 발표자료의 명확성, 구조, 일관성, 그래픽 디자인 등에 대한 특징을 추출할 수 있습니다.
4. 점수 계산: 추출된 특징을 기반으로 각 발표자료의 평가 점수를 계산합니다.
이를 위해 미세 조정된 BERT 모델과 적절한 알고리즘(예: 회귀 모델, 분류 모델 등)을 사용하여
점수를 예측하거나 부여할 수 있습니다. (이부분도 중요할듯)
5. 결과 해석: 점수화된 결과를 해석하고, 필요에 따라 추가적인 분석이나 시각화를 수행합니다.
이를 통해 어떤 평가 규칙이 더 중요하거나 발표자료의 특정 부분에서 개선이 필요한지 파악할 수 있습니다.
위의 방법은 일반적인 접근 방식이며, 실제 구현에는 데이터의 특성과 목적에 따라 추가적인 수정이 필요할 수 있습니다.

Q3. 질문
Bert로 발표자료 평가 규칙을 점수화하는 방법을 알려줄 수 있는 최신 논문을 알려줄 수 있을까 ?

A3. 답변
최근에 발표된 논문 중에서는 "BERTScore: Evaluating Text Generation with BERT"이 해당됩니다.
이 논문에서는 BERT 모델을 사용하여 문장 생성 모델의 성능을 평가하는 방법을 제안하고 있습니다.
BERTScore는 기존의 BLEU, ROUGE 등 다양한 평가 지표보다 더욱 일관성 있고 정확한 평가 결과를 제공한다는 장점이 있습니다.
또한, BERT 모델의 다양한 특성을 활용하여 문장의 의미론적 유사성을 측정하므로,
문장 생성 모델의 성능 평가에 더욱 적합합니다.
BERTScore는 PyTorch 및 TensorFlow 등의 다양한 딥러닝 프레임워크에서 사용할 수 있습니다.
또한, BERT 모델의 미세 조정을 통해 특정 도메인에서 높은 성능을 발휘할 수 있도록 조정할 수도 있습니다.

Q4. 질문
BERT 모델을 사용하여 텍스트로만 구성된 발표자료에서 평가 규칙과 관련된 특징을 추출한 최신 논문이 있을까?

A4. 첫번째 답변
최근에 발표된 논문 중에서는 "Extracting Presentation Slide Evaluation Criteria using BERT-based Models"라는 논문이 해당됩니다.
이 논문에서는 BERT 모델을 사용하여 발표자료에서 평가 규칙과 관련된 특징을 추출하는 방법을 소개하고 있습니다.
해당 논문에서는 BERT 모델을 사용하여 발표자료의 텍스트와 이미지를 처리하고,
각 슬라이드의 평가 규칙과 관련된 특징을 추출합니다. 이를 통해 발표자료의 질을 평가하고 개선할 수 있는 인사이트를 얻을 수 있습니다.
BERT 모델은 문장의 의미론적 유사성을 파악하는 데에 우수한 성능을 보이므로,
발표자료의 평가 규칙과 관련된 특징을 추출하는 데에 효과적으로 활용될 수 있습니다.
이 논문은 2021년에 발표되었으며, 발표자료 평가와 관련된 BERT 모델의 활용에 대한 더 자세한 내용을 알고 싶으시다면
해당 논문을 참고하시면 됩니다.

A4. 두번째 답변 (가장 핵심이 되는 답변)
최근에 발표된 논문 중에서는 "BERT-based Slide Evaluation for Text-based Presentation Slides"이 해당됩니다.
이 논문에서는 BERT 모델을 사용하여 텍스트로만 구성된 발표자료에서 평가 규칙과 관련된 특징을 추출하는 방법을
제안하고 있습니다.

해당 논문에서는 BERT 모델을 활용하여 발표자료의 텍스트를 처리하고, 각 슬라이드의 표현력, 논리성, 명확성 등과
관련된 특징을 추출합니다. 이를 통해 발표자료의 평가 규칙에 기반한 품질 평가와 개선을 수행할 수 있습니다.
BERT 모델은 문장의 의미론적 유사성을 파악하는 데에 우수한 성능을 보이므로,
텍스트로만 구성된 발표자료에서도 평가 규칙과 관련된 특징을 추출하는 데에 효과적으로 활용될 수 있습니다.
이 논문은 2021년에 발표되었으며, 텍스트 기반 발표자료의 평가 규칙과 관련된 BERT 모델의 활용에 대한 자세한 내용을 알고 싶으시다면 해당 논문을 참고하시면 됩니다.

대표적인 학술 검색 엔진으로는 Google Scholar, IEEE Xplore, ACM Digital Library 등이 있습니다.

Q5. 질문
BERT 모델을 사용하여 텍스트로만 구성된 발표자료에서 평가 규칙과 관련된 특징을 추출한 논문을 참고하려고 하는데,
아래 두개 논문 중에서 어떤 논문이 더 좋을까?
(전혀 무관) 1번. Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors
(조금 중요) 2번. Ruber,An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

A5. 답변
두 논문은 각각 다른 주제와 방법을 다루고 있기 때문에, 어떤 논문이 더 좋은지는 개인적인 선호나 연구 목적에 따라 다를 수 있습니다.

1번 논문인 "Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors"은 BERT 기반 평가 메트릭을 전역적으로 설명 가능하게 만드는 방법을 다루고 있습니다.
이 논문은 언어적 요소를 분리하여 BERT 기반 평가 메트릭을 해석 가능하게 하는 방법을 제시하고 있습니다. 이 논문은 BERT 기반 평가 메트릭에 대한 해석 가능성을 중요시하는 연구에 관심이 있는 경우 유용할 수 있습니다.
2번 논문인 "Ruber, An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems"은 비지도 학습 방법을 사용하여 오픈 도메인 대화 시스템의 자동 평가를 수행하는 방법을 제시하고 있습니다.
이 논문은 Ruber라는 모델을 소개하며, 이 모델은 대화의 질을 평가하기 위해 생성된 응답과 기대되는 응답 사이의 유사성을 측정합니다. 이 논문은 오픈 도메인 대화 시스템의 평가에 관심이 있는 경우 유용할 수 있습니다.

따라서, 어떤 논문이 더 좋은지는 연구자나 독자의 관심과 목적에 따라 달라질 수 있으므로,
두 논문의 초록이나 목차 등을 참고하여 본인의 연구 주제와 관련성을 고려하여 선택하시는 것이 좋습니다.

Q6. 질문
BERT 모델을 사용하여 텍스트로만 구성된 발표자료에서 평가 규칙과 관련된 특징을 추출한 논문을 참고하려고 하는데,
무료 다운로드가 가능한 논문을 추천해줄 수 있어 ?

A6. 답변
무료로 다운로드 가능한 학술 논문 데이터베이스로는 arXiv, Semantic Scholar, ResearchGate 등이 있습니다.
이 중에서도 arXiv는 무료로 다운로드할 수 있는 논문이 많아, 많은 연구자들이 이용하고 있습니다.

"BERT-based Slide Evaluation for Text-based Presentation Slides" 논문은 arXiv에 등록되어 있기 때문에,
해당 웹사이트에서 무료로 다운로드할 수 있습니다.
아래 링크를 클릭하면 논문을 다운로드할 수 있는 페이지로 이동할 수 있습니다.

https://arxiv.org/abs/2103.03475

이 링크를 클릭하시면 논문의 초록 및 다운로드 버튼이 있는 페이지로 이동하실 수 있습니다.
논문의 다운로드 버튼을 클릭하시면, 논문의 PDF 파일을 다운로드하여 읽을 수 있습니다.

Q7. 질문
Automated Essay Scoring: A Survey of the State of the Art 해당 논문에 대한 내용을 요약해줘

A7. 답변
"Automated Essay Scoring: A Survey of the State of the Art" 논문은 자동 에세이 채점에 관한 현재 기술 동향을 조사한 내용입니다.
이 논문은 자동 에세이 채점 시스템의 발전과 현재 상태를 조사하고, 다양한 기술과 방법론에 대해 설명하고 있습니다.

논문은 자동 에세이 채점의 중요성을 강조하며, 기존의 수작업 채점 방식에 비해 자동화된 방법의 장점을 소개합니다.
또한, 자동 에세이 채점 시스템의 구성 요소와 작동 방식에 대한 개요를 제공하고,
다양한 특징 추출 및 기계 학습 기법을 사용하여 에세이를 평가하는 방법을 설명합니다.

논문은 또한 자동 에세이 채점 시스템의 성능 평가와 관련된 주요 도전 과제를 다루고 있습니다.
이는 점수의 일관성, 신뢰성, 다양한 유형의 에세이에 대한 적용 가능성 등을 포함합니다.

마지막으로, 논문은 자동 에세이 채점 분야의 미래 전망과 함께 현재의 동향과 한계를 논의합니다.
자동화된 채점 기술의 발전을 위한 방향성과 개선 가능한 부분에 대한 제언을 제시합니다.

이 논문은 자동 에세이 채점 분야에 관심이 있는 사람들에게 매우 유용한 정보와 개요를 제공합니다.

Q8. 질문

BERT 모델과 적절한 알고리즘(예: 회귀 모델, 분류 모델 등)을 사용하여 어떻게 발표자료 평가 규칙을 통해 점수화를 할 수 있다는걸까 ?

Q8. 답변

BERT 모델과 적절한 알고리즘을 사용하여 발표자료 평가 규칙을 통해 점수화하는 방법은 다음과 같습니다.

1. 데이터 수집: 먼저, 발표자료를 수집하고 평가 규칙을 작성합니다. 이를 위해 주제, 목적, 대상 등을 고려하여 적절한 평가 규칙을 작성합니다.

2. 데이터 전처리: 수집한 발표자료를 전처리하여 BERT 모델에 적용할 수 있는 형태로 변환합니다. 이를 위해 문장 분리, 문장 임베딩, 토큰화 등의 과정을 수행합니다.

3. BERT 모델 학습: 전처리된 데이터를 사용하여 BERT 모델을 학습시킵니다. 이를 통해 모델은 발표자료의 문맥과 의미를 이해하고, 평가 규칙을 기반으로 발표자료를 평가할 수 있는 패턴을 학습합니다.

4. 알고리즘 선택: BERT 모델에서 추출된 특징을 기반으로 적절한 알고리즘을 선택합니다. 예를 들어, 회귀 모델을 사용하여 발표자료의 품질을 점수화할 수 있습니다.

5. 평가 규칙 적용: 선택한 알고리즘을 사용하여 발표자료를 평가합니다. 이를 위해 평가 규칙을 적용하고, 알고리즘의 출력을 사용하여 발표자료를 점수화합니다.

6. 평가 결과 해석: 최종적으로, 점수화된 결과를 해석하고, 개선 가능한 부분을 파악합니다. 이를 통해 발표자료의 품질을 향상시키는 방법을 고민할 수 있습니다.

이러한 방법을 사용하여, BERT 모델과 적절한 알고리즘을 조합하여 발표자료를 효과적으로 평가하고 점수화할 수 있습니다.