[2022] Improving Imbalanced Learning by Pre-finetuning with Data Augmentation
한줄 요약: 역번역을 통해 데이터를 증강하여(분포 유지한다는 거 보니 그냥 모든 데이터 역번역..) TAPT 비슷하게 추가 사전학습함, 이를 통해 성능 증대
짧은 요약(Abstract) :
* 데이터 불균형은 데이터세트의 클래스 간에 불균형한 분포가 있는 실제 세계에서 흔한 현상임
* 이러한 클래스 불균형은 재샘플링과 재가중치 같은 전형적인 클래스 균형 접근법을 사용하더라도 현대 딥 러닝에 주요한 도전을 제시함
* 이 작업에서 저자들은 사전 학습된 모델과 미세 조정 사이의 새로운 중간 학습 단계로서 사전 미세 조정이라는 간단한 교육 전략을 소개함
* 저자들은 데이터 증대의 아이디어를 활용하여 사전 미세 조정 단계 동안 도메인 작업의 불균형 분포에 더 잘 맞는 초기 표현을 학습함
* 저자들은 수동으로 조작된 불균형 데이터세트(이진 및 다중 클래스 모두)와 ADME(즉, 흡수, 분포, 대사, 배설) 분류를 위한 FDA 약물 라벨링 데이터세트에서 저자들의 방법을 테스트함
* 저자들은 표준 단일 단계 훈련(즉, 바닐라 미세 조정)과 비교하여 저자들의 방법이 일관되게 큰 폭으로 개선된 모델 성능을 달성함을 발견함
* 저자들의 작업은 사전 미세 조정이 불균형 데이터에 대한 간단하면서도 효과적인 학습 전략임을 보여줌
Useful sentences : 단어정리
- ubiquitous: 어디에나 있는, 흔한
- contrived: 인위적인, 고안된
- ADME: absorption, distribution, metabolism, and excretion : 흡수, 분포, 대사, 배설 (약물의 체내 동태를 나타내는 용어)
- predispose: ~하는 경향을 만들다, ~에 취약하게 만들다
- owing: ~때문에, ~로 인하여
- paucity: 부족, 결핍
- hindrance: 방해, 장애
- interpolating: 보간하는, 중간값을 추정하는
- compensate: 보상하다, 보완하다
- weighting schemes: 가중치 체계
- shortcoming: 단점, 결점
- interpolation based: 보간 기반의
- perturbation: 교란, 작은 변화
- SMOTE-Synthetic Minority Over-sampling Technique: SMOTE-합성 소수 클래스 오버 샘플링 기법
- diminishes: 감소하다, 줄어들다
- henceforth: 이제부터, 앞으로
- schematically: 개략적으로, 도식적으로
- consists of: ~로 구성되다
- intermediate: 중간의, 중급의
- intermediate language: 중간 언어 (프로그래밍에서의 중간 코드나 데이터 변환에서의 중간 단계 언어를 의미할 수 있음)
- pharmacokinetics: 약동학 (약물이 생체 내에서 어떻게 흡수, 분포, 대사, 배설되는지를 연구하는 학문)
- albeit: 비록 ~이지만
- linear probing: 선형 탐사 (해시 테이블에서 충돌이 발생했을 때, 다음 빈 슬롯을 찾기 위해 순차적으로 탐색하는 방법)
- deem: ~라고 여기다, ~라고 판단하다
1. Introduction
- 실제 세계 데이터는 종종 긴 꼬리 분포를 보이며 심각한 클래스 불균형을 나타냄
- 불균형 데이터세트에서 특정 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 포함할 때, 모델은 대다수 클래스의 샘플을 더 잘 학습하지만 소수 클래스에 대해서는 일반화를 잘 못함
- 이러한 클래스에서의 학습은 드문 질병의 진단이나 소수 그룹에 대한 불공정 등 고위험 설정에서 매우 중요함
- 데이터 불균형은 자연어 처리(NLP)에서 사전 학습된 언어 모델(LMs)에 특히 도전적임
- 대규모 사전 학습된 LMs를 사용하여 하류 작업을 수행하는 미세 조정은 널리 사용되는 패러다임임
- 이 패러다임에서는 BERT와 같은 대형 LM이 대량의 텍스트에서 훈련된 다음 특정 하류 작업에서 미세 조정됨
- 널리 사용되는 이 미세 조정은 사전 학습된 모델을 하류 작업의 상대적으로 작은 데이터 샘플에 과적합하고 일반화를 못하는 경향으로 이어질 수 있음
- 소수 클래스에서의 샘플 부족은 재샘플링과 재가중치와 같은 특수 클래스 균형 기술을 사용하더라도 작업 성능을 향상시키는 데 지속적인 장애물임
2. Related Works
Pretraining and Finetuning Framework
- 사전 학습 및 미세 조정 프레임워크 미세 조정은 대규모 LMs를 사용하여 하류 작업을 수행하는 데 널리 사용되는 패러다임임
- 이 패러다임에서는 BERT와 같은 대형 LM이 대량의 텍스트에서 훈련된 다음 특정 하류 작업에서 미세 조정됨
- 다양한 미세 조정 접근 방식 중에서 바닐라 미세 조정은 아마도 가장 인기 있는 접근 방식일 것이며, 여기서는 LM의 일부 또는 전체 계층을 미세 조정하고 분류자 또는 헤드라고 알려진 하나 또는 두 개의 간단한 작업별 출력 계층을 추가함
- 이 작업에서 저자들은 불균형 데이터로 미세 조정을 다루기 위해 바닐라 미세 조정을 기반으로 사전 미세 조정을 도입함
Imbalanced Learning
- 불균형 학습에 대한 풍부한 문헌이 있음
- 재샘플링과 재가중치는 두 가지 인기 있는 접근 방식임
- 재샘플링은 소수 클래스를 오버 샘플링하거나 다수 클래스를 언더 샘플링하거나 둘 다를 포함함
- 이러한 재샘플링은 각각 과적합이나 중요한 정보 손실의 비용을 초래함
- 또한 이웃 샘플을 보간하거나 소수 클래스에 대한 새로운 샘플을 합성하여 새로운 샘플을 생성할 수 있음
- 반면에 재가중치는 클래스 분포에 따라 다른 샘플에 가중치를 할당하여 클래스 불균형을 보상하기 위해 손실 함수를 수정함
- 다양한 중요도 가중치 체계가 있음
- 간단한 방법은 샘플 가중치를 클래스 빈도의 역수에 비례하여 할당하는 것임
- 이러한 체계는 대규모 불균형 데이터세트에서 훈련할 때 일반적으로 성능이 떨어짐
- 대신 각 클래스에 존재하는 샘플의 총 수를 사용하는 대신 더 나은 클래스 균형을 위해 효과적인 샘플 수의 역수로 가중치를 재조정하는 것이 도입됨
- 최근에는 다양한 벤치마크 비전 작업에서 소수 클래스에 대해 더 큰 마진을 장려하는 레이블 분포 인식 마진 손실 함수가 제안되어 크게 성능이 향상됨
- 앙상블 기반 접근법은 불균형 학습에도 널리 사용됨
- 앙상블은 여러 분류기의 출력을 병합하거나 다중 전문가 프레임워크에서 개별 분류기를 결합하여 불균형 데이터를 효과적으로 처리할 수 있음
- 이러한 방법은 주로 모델 분산을 줄여 견고한 예측을 얻음으로써 최고의 성능을 달성함
- 그러나 이들 중 많은 것은 재샘플링/재가중치 체계와 앙상블 학습 프레임워크의 직접 조합이며, 따라서 쉬운 샘플에 대한 중복 또는 모든 클래스에 전문가를 균일하게 할당하는 등 기존 클래스 균형 전략의 유사한 단점을 상속함
- 대부분의 경우 도메인 전문가가 제공한 적절한 비용 행렬을 얻기 어려움
Data Augmentation (DA)
- 데이터 증대(DA) DA는 새로운 데이터를 직접 수집하지 않고도 교육 데이터 다양성을 늘리는 기술 세트임
- 컴퓨터 비전에서 널리 효과적임에도 불구하고, 언어 데이터의 이산적인 특성으로 인해 NLP에서는 상대적으로 도전적임
- 대체로 텍스트 데이터 증대에는 세 가지 유형이 있음: 규칙 기반, 보간 기반, 모델 기반임
- 규칙 기반 방법은 문장에서 단어와 구를 조작하여 원본 텍스트의 의미와 레이블을 유지하 ideally하면서 증가된 텍스트를 생성함
- 이 카테고리에서의 대표자는 EDA로, 무작위 삽입, 삭제, 교체 및 교환과 같은 일련의 텍스트 편집 기술을 사용함
- 이들은 구현하기 쉽지만, 무작위적인 변형이 문장의 의미를 완전히 변경할 수 있다는 가능성으로 인해 일반적으로 불안정한 개선을 제공함
- 보간 기반 방법은 원본 텍스트 또는 그들의 잠재 상태 표현에 대해 직접 보간 작업을 통해 새로운 예제를 생성함
- 특히 SMOTE - 합성 소수 오버샘플링 기술 -은 동일한 클래스 내에서 샘플을 선형 보간하여 소수 클래스에 대한 합성 샘플을 생성함
- 이 모델은 여전히 인기가 있지만, 합성 샘플의 노이즈로 인해 오류가 발생하기 쉬움
- 모델 기반 방법은 원본 데이터에 적대적 변형을 추가하기 위해 생성적 적대적 네트워크를 활용하거나, BERT와 같은 훈련된 언어 모델을 사용하여 * 클래스 범주와 관련된 텍스트와 함께 새로운 샘플을 생성하기 위해 수정 사항이 있는 새로운 샘플을 생성함
- 백번역은 아마도 가장 인기 있는 모델 기반 방법일 것이며, 이는 문장을 특정 중간 언어로 번역한 다음 원래 언어로 다시 번역함
- 이 모델 기반 접근 방식은 상당한 교육 노력이 필요하지만, 일단 사전 교육된 모델이 구축되면, 원본 데이터세트에서 보지 못했을 수도 있는 새롭고 다양한 데이터를 생성하여 성능을 향상시킬 준비가 됨
3. Our Approach: Pre-finetuning with Data Augmentation
- 저자들의 접근 방식은 경험적으로도 이론적으로도 동기를 부여받았음
- 최근의 경험적 연구는 중요도 가중치가 훈련 초기에 중요한 영향을 미치며 중요도 가중치의 영향이 연속적인 훈련 에포크에 걸쳐 감소한다는 것을 보여줌
- 이론적 분석은 불균형 학습에서 소수 클래스가 최상위 계층에서 단일 벡터로 축소되는 소수 클래스 붕괴 현상이 나타나며 이것이 소수 클래스에 대한 모델 성능에 근본적인 한계를 둔다고 예측함
- 따라서 저자들은 사전 학습된 모델을 미세 조정하기 전에 대상 데이터의 대략적인 표현을 가질 수 있도록 사전 학습된 모델과 미세 조정 사이에 새로운 초기 훈련 단계인 사전 미세 조정을 제안함
- 저자들의 접근 방식의 핵심은 데이터 증대(DA) 기술을 혁신적으로 사용하여 원본 데이터와 유사한 분포를 유지하는 대량의 증대 데이터를 생성함으로써 데이터 부족을 처리하고 데이터 다양성을 향상시키는 것임
- 따라서 저자들의 접근 방식은 사전 미세 조정과 DA로 지칭됨
- 이 작업에서 저자들은 데이터 증대를 위한 모델 기반 접근 방식으로 뛰어난 성능 때문에 역번역을 사용함
- 바닐라 미세 조정과 달리 저자들이 제안한 접근 방식은 다음과 같이 세 단계로 구성됨
- 첫째, 저자들은 역번역을 사용하여 훈련 데이터의 변형된 버전을 생성함
- 이때 원본 문장의 의미와 기본 구문 구조를 유지함
- 주어진 레이블을 가진 데이터의 경우 역번역은 잠재적으로 무한한 양의 새로운 증대 데이터 샘플을 생성할 수 있으므로 과적합을 크게 피할 수 있음
- 이 작업에서 저자들은 언어 다양성을 향상시키기 위해 독일어와 러시아어를 중간 언어로 사용함
- 둘째, 이 연구에서 사전 학습된 모델로 BERT를 사용함
- 사전 미세 조정 단계에서 BERT의 모든 계층을 고정하고 최상위 계층과 분류기만 더 큰 학습률로 데이터 증대 단계에서 생성된 증대 데이터로 미세 조정함
- 셋째, 모든 계층의 고정을 해제하고 원본 불균형 데이터로 전체 BERT 모델을 미세 조정함
4. Experimental Setup
4.1. Datasets
-
저자들은 인위적으로 생성된 두 벤치마크 데이터세트인 IMDB와 20 뉴스그룹과 ADME 의미 라벨링을 위한 실제 응용 프로그램에서 사전 미세 조정 전략을 평가함
- IMDB 데이터세트는 이진 감정 분류를 위한 50,000개의 영화 리뷰로 구성되어 있음
- 원본 데이터세트에서 긍정적이고 부정적인 리뷰의 수는 균등하게 분포되어 있음
- 저자들은 부정 리뷰의 90%를 제거하여 불균형한 훈련 데이터세트를 수동으로 생성함
-
테스트 데이터세트는 변경되지 않음
- 20 뉴스그룹 데이터세트는 약 20,000개의 뉴스그룹 문서로 구성되며, 20개의 다른 뉴스그룹에 거의 균등하게 분할됨
- 저자들은 훈련 예제 수를 클래스별로 줄여 주어진 불균형 비율에 도달할 때까지 훈련 세트의 불균형 버전을 수동으로 생성함
- 불균형 비율 ρ는 가장 빈도가 낮은 클래스의 샘플 크기와 가장 빈도가 높은 클래스의 샘플 크기 사이의 비율로 정의됨, 즉 ρ = min(Ni)/max(Ni)
- 두 가지 유형의 불균형이 고려됨으로써 저자들의 방법이 다양한 설정에 적용 가능함을 보장함
- 하나는 계단 불균형으로, 크기가 591에서 600 사이인 열 클래스를 선택한 다음 나머지 클래스에 대해 레코드의 약 10%를 무작위로 샘플링하여 클래스 불균형 훈련 세트를 인위적으로 생성함
- 다른 하나는 긴 꼬리 불균형으로, 데이터는 지수 감쇠 분포를 따르도록 생성됨
- 구체적으로 각 클래스에 대해 max(Ni)×ρi/(n-1) 샘플을 무작위로 추출함, 여기서 max(Ni)는 클래스 i의 최대 샘플 크기이고 n은 클래스 수이며 ρ는 불균형 비율로 0.1로 설정됨
-
훈련 데이터세트의 분포는 부록의 그림 ??에 표시됨
- ADME 의미 라벨링 저자들은 ADME 분류를 위한 FDA 약물 라벨링 데이터세트에 저자들의 방법을 적용함
- FDA 약물 라벨링 데이터세트는 미국 국립 의학 도서관이 제공하는 무료 약물 정보 리소스인 DailyMed에서 검색됨
- DailyMed의 전자 약물 라벨링은 Logical Observation Identifiers Names and Codes(LOINC)로 다양한 약물 라벨 섹션을 지정하는 구조화된 제품 라벨링 표준을 따름
- ADME는 약물 라벨링의 약동학 섹션(LOINC 코드: 43682-4)의 일부임
- 룰 기반 방법을 사용하여 명시적인 ADME 제목을 가진 5687개의 ADME 단락과 “특정 인구”, “약물 상호 작용 연구” 등과 같은 다른 주제에 대한 5367개의 단락을 약동학 섹션에서 추출하여 각각 “기타”로 라벨링함
- 자세한 데이터 준비 정보는 Shi et al. (2021)을 참조하십시오
- 저자들은 데이터세트의 85%를 훈련용으로, 나머지 15%를 테스트용으로 무작위 분할하여 훈련 및 테스트 데이터세트 모두 클래스 불균형 상태를 유지함
- 홀드아웃 방법 외에도 이 데이터세트에 대해 5-폴드 교차 검증을 수행하여 추가 확인을 함
4.2. Implementation Details
- 모든 실험에 대해 저자들은 PyTorch를 사용함
- 사전 미세 조정을 위한 증대 데이터를 생성하기 위해 저자들은 역번역 방법을 사용함
- 구체적으로 저자들은 훈련 세트에서 무작위로 샘플링하여 각 클래스의 레이블이 지정된 동등한 수의 데이터를 얻은 다음 독일어와 러시아어를 중간 * 언어로 선택하여 역번역을 통해 해당 증대 데이터를 생성하기 위해 nlpaug를 사용함
- 따라서 입력 문장은 역번역을 통해 변경되지만 클래스 레이블은 유지됨
-
예를 들어 IMDB에서 문장 “You’d better choose Paul Verhoeven’s even if you have watched it”에 대한 독일어와 러시아어를 통한 역번역된 텍스트는 각각 “You should choose Paul Verhoeven’s even if you saw it”와 “You’d better pick Paul Verhoeven even if you were watching him”임
- 구현에서 저자들은 NLP에서 주로 사용되는 사전 훈련된 모델로 인해 BERT base 모델 bert-base-uncased를 사용함
- 배치 크기와 최대 시퀀스 길이는 바닐라 미세 조정과 동일하게 유지됨
- 증대 데이터로 저자들은 더 큰 학습률 1e-4를 사용하여 1 에포크 동안 사전 미세 조정 단계에서 최상위 계층과 헤드만 미세 조정함으로써 모델이 빠르게 학습하고 사전 훈련된 특징을 보존하도록 함
- 두 번째 단계의 미세 조정에 사용된 하이퍼파라미터는 모든 데이터세트에 대해 바닐라 미세 조정과 동일하게 유지됨
- 각 데이터세트에 사용된 하이퍼파라미터의 자세한 내용은 부록의 표 ??에 제공됨
- 모든 실험은 단일 Nvidia Tesla P100-PCIE-16GB 또는 Nvidia Tesla V100-SXM2-32GB에서 실행됨
4.3. Baselines
- 저자들은 제안된 방법을 주요 기준선인 바닐라 미세 조정과 비교함
- 저자들은 Devlin et al. (2019)에 의해 출시된 매개변수로 사전 훈련되고 초기화된 bert-base-uncased 모델을 사용함
- 이 모델 구성은 원래 출시에서의 권장 사항과 일치함
-
저자들은 배치 크기 {8, 16, 32}와 학습률 {5e-6, 1e-5, 3e-5, 5e-5}에 대해 그리드 검색을 수행하고, 부록의 표 ??에 나와 있는 각 데이터셋에 대한 최적의 하이퍼파라미터를 사용함
- 완전성을 위해 추가 기준선 결과도 포함함:
- 소수 클래스의 훈련 예제를 오버샘플링하는 가장 인기 있는 샘플링 방식을 통한 미세 조정
- 선형 탐색(LP 또는 헤드 튜닝) 다음 전체 미세 조정(FT)의 두 단계 전략인 LP-FT, 경쟁적인 결과를 달성하는 것으로 나타남
4.4. Evaluation Metrics
- 저자들은 모델 성능을 평가하기 위해 주요 지표로 F1-점수를 사용함
- 데이터 분포에 민감하기 때문에 F1-점수는 두 클래스 및 다중 클래스 문제 모두에서 처리함
- 전체 F1 점수(마이크로 F1)와 클래스별 F1 점수 모두를 보고하여 데이터의 다수 클래스와 소수 클래스 모두에 대한 일반화 성능을 정량화함
- 다중 클래스 분류의 F1 점수를 보고할 때는 다수 클래스의 지배력을 제거하기 위해 비 다수 클래스에 대한 마이크로 F1을 계산함으로써 다수 클래스에 편향되지 않도록 함
- 모델 평가에 주로 홀드아웃 방법을 사용함
- 홀드아웃 방법은 모델 훈련이 비용이 많이 드는 딥러닝에서 특히 매력적이지만 결과는 특정 데이터 세트의 무작위 선택에 따라 달라질 수 있음
- 잠재적인 표본 추출 편향을 줄이기 위해 다른 시드로 다섯 번의 독립 실행을 기반으로 모든 결과를 보고함
- 또한 ADME 데이터셋에 대해 보다 나은 추정치를 얻기 위해 5-폴드 교차 검증을 수행함
- 추정치의 불확실성은 평균의 표준 오차에 기반한 오차 막대로 표현됨
5. Results
5.1. Imbalanced Benchmark Datasets: IMDB and the 20 Newsgroups
- 저자들은 IMDB 데이터세트에서 주요 결과를 보여주기 전에 사용한 데이터 증대 기술의 품질을 빠르게 확인함
- 증대 데이터가 원본과 유사한 분포를 유지하는 정도를 평가하기 위해, 증대 데이터와 원본 데이터의 텍스트 임베딩 분포를 비교함
- 이를 위해 훈련 데이터세트에서 2500개의 샘플을 생성하여 증대 데이터를 생성하고, 유사하게 검증을 위해 2500개의 원본 데이터 샘플을 홀드아웃 함
-
그런 다음 미세 조정된 BERT 모델을 통해 증대 데이터와 홀드아웃 데이터 모두에 대한 임베딩을 얻은 다음, t-SNE 시각화를 사용하여 그들의 임베딩 분포를 비교함
- 결과는 증대 데이터가 각 클래스에서 원본 홀드아웃 데이터셋과 매우 잘 일치하는 분포를 가지고 있음을 보여줌
- 이 비교는 증대 데이터가 실제로 원본 데이터와 유사한 분포를 가지고 있음을 시사함
-
데이터 증대에 사용된 원본 데이터와 홀드아웃 데이터는 동일한 데이터 분포에서 유래했지만 서로 독립적임을 주목하는 것이 중요함
- IMDB 데이터세트에 대한 F1 점수와 클래스별 F1 점수를 저자들의 방법과 세 가지 기준선(바닐라 미세 조정, 오버샘플링을 통한 미세 조정, LP-FT)과 비교하여 보고함
- 저자들의 방법은 F1 점수와 클래스별 F1 점수 모두에서 모든 기준선에 비해 가장 좋은 성능을 보임
- 소수 클래스인 부정 클래스는 다수 클래스인 긍정 클래스보다 더 큰 개선을 보임
-
이는 사전 미세 조정을 통해 저자들의 방법이 소수 클래스를 더 강하게 정규화하는 데 성공했음을 시사함
- 20 뉴스그룹 데이터세트에 대한 클래스별 F1 점수를 보고함
- 저자들의 사전 미세 조정 및 DA 방법과 바닐라 미세 조정 기준선을 비교했을 때, 소수 클래스는 다수 클래스보다 F1 점수가 훨씬 낮았지만, 저자들의 방법은 소수 클래스에서 F1 점수의 상당한 개선을 보여 다수 클래스보다 더 나은 일반화를 달성함
- 전반적으로 F1 점수는 바닐라 미세 조정의 0.6433에서 저자들의 방법의 0.6781로 증가함
- 다양한 설정에 대한 저자들의 방법의 적용 가능성을 보장하기 위해, 저자들은 20 뉴스그룹 벤치마크에서 긴 꼬리 불균형 훈련 데이터셋을 사용하여 사전 미세 조정 전략을 테스트함
- 저자들의 방법은 기준선 방법의 F1 점수 0.7137에 비해 F1 점수 0.7571로 우수한 성능을 보임
- 클래스별 F1 점수는 소수 클래스에서 다수 클래스보다 더 큰 개선을 보여, 계단 불균형 데이터셋과 유사한 경향을 보임
- 이 결과는 저자들의 방법이 훈련 데이터세트의 다양한 불균형 유형에 적응할 수 있음을 보여줌
- 저자들은 데이터 증대를 위해 역번역을 사용했지만, EDA를 사용한 실험에서도 저자들의 방법이 전체 F1 및 클래스별 F1을 개선하는 데 동등하게 효과적임을 보여줌
- 불균형 비율의 영향을 평가하기 위해, 저자들은 불균형 비율을 0.1에서 0.5까지 0.1씩 증가시키면서 체계적으로 변화시킴
- 불균형 비율이 증가함에 따라 F1 성능이 모든 방법에서 향상되었지만, 저자들의 사전 미세 조정 및 DA 방법은 모든 다양한 불균형 비율에 걸쳐 기준선 방법을 지속적으로 능가함
- 또한, 불균형 비율이 증가함에 따라 F1 점수의 성능 향상이 감소함을 관찰함
5.2. Real-world Application: ADME Semantic Labeling
- 저자들은 실제 문제에 적용 가능함을 보여주기 위해 ADME 분류를 위한 FDA 약물 라벨링 데이터세트에 저자들의 방법을 적용함
- 먼저 홀드아웃 방법을 기반으로 결과를 보고함
- ADME 훈련 데이터의 클래스 분포는 본질적으로 불균형함을 보여주는 그림 5A에 표시됨
- 바닐라 미세 조정과 비교하여 저자들의 사전 미세 조정 DA는 F1 점수를 0.8936에서 0.9054로 향상시킴
- 클래스별 F1 점수는 그림 5B에 제공되며, 저자들의 방법과 바닐라 방법 간의 절대 개선은 그림 5C에 표시됨
- 이 데이터로부터 소수 클래스(예: ADME)에서 F1 점수의 개선이 다수 클래스(예: 기타)보다 훨씬 더 상당함을 관찰할 수 있음
- 또한, 클래스별 F1 점수의 개선은 클래스당 샘플 크기가 감소함에 따라 증가함
- 이 데이터셋에서 5-폴드 교차 검증을 수행한 결과, 저자들의 방법은 바닐라 미세 조정과 비교하여 전체 F1 점수를 0.8993에서 0.9070으로 개선함을 발견함
- 5-폴드 교차 검증에 의해 얻어진 클래스별 F1 점수는 부록에 제공됨
6. Discussion and Conclusion
- 불균형 데이터는 많은 실제 문제에서 내재된 현상으로, 하나 또는 그 이상의 클래스(다수 클래스)가 다른 클래스(소수 클래스)보다 더 자주 발생함
- 이 문제는 클래스 크기가 대략적으로 동일하다고 가정하는 대부분의 기계 학습 알고리즘에 문제를 일으킴
- 불균형 데이터셋에서 모델을 훈련할 때, 모델은 다수 클래스에 편향되어 소수 클래스에서 일반화를 잘 못함
- 이 연구에서 저자들은 사전 미세 조정이 불균형 데이터에 대한 간단하지만 효과적인 학습 전략임을 보여줌
- 핵심 아이디어는 사전 학습된 모델과 미세 조정 사이에 새로운 중간 학습 단계로서 사전 미세 조정을 추가하는 것임
- 구체적으로, 저자들은 증대된 데이터를 사용하여 불균형 데이터의 초기 표현을 학습함
- 이 추가적인 교육 단계를 통해 일반 도메인과 대상 도메인 사이의 유사성을 더욱 증가시켜 모델이 하류 작업의 불균형 분포에 더 잘 맞을 수 있도록 함
-
두 개의 인위적으로 조작된 불균형 데이터세트와 ADME 의미 라벨링을 위한 FDA 약물 라벨링 데이터세트에서 평가된 하류 작업에 대한 성능 향상을 통해 사전 학습된 표현이 사전 미세 조정으로 더욱 정제될 때 일관되게 개선됨을 보여줌
- 데이터 증대를 사용하면 원본 데이터 공간 근처에서 합성 데이터의 잠재적으로 무한한 크기를 생성할 수 있음
- 이상적으로, 증대된 데이터는 원본 데이터와 유사한 분포를 가져야 함
- 증대된 데이터의 분포는 원본과 너무 유사하거나 다를 경우 각각 모델 과적합 또는 주어진 도메인을 대표하지 않는 예제에서 훈련하여 성능이 저하될 수 있으므로 너무 유사하거나 다르지 않아야 함
- 따라서 모든 상황에서 증대가 성능을 향상시키는 것은 아니며 DA 접근법이 효과적인 조건을 결정하는 것은 여전히 어려움
-
데이터 증대가 작동하는 이유에 대한 이론적 이해가 부족하기 때문에 효과적임
- 저자들의 사전 미세 조정 전략은 다운스트림 성능을 개선하는 일반적인 접근 방식임
- 이 연구에서 제안된 방법은 불균형 데이터 학습을 위해 설계되었지만, 이 아이디어는 균형 잡힌 데이터와 컴퓨터 비전과 같은 기타 기계 학습 도메인에도 적용될 수 있음
- 저자들의 연구는 불균형 분류에 초점을 맞췄지만, 불균형 회귀로 조사를 확장하는 것도 흥미로운 주제임
- 저자들의 접근 방식에서는 증대된 데이터를 사전 미세 조정에 사용
정리
- 실제 세계 데이터는 종종 긴 꼬리 분포를 보이며 심각한 클래스 불균형을 나타냄
- 불균형 데이터세트에서 특정 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 포함할 때, 모델은 대다수 클래스의 샘플을 더 잘 학습하지만 소수 클래스에 대해서는 일반화를 잘 못함
- 저자들은 접근 방식의 핵심은 데이터 증대(DA) 기술을 혁신적으로 사용하여 원본 데이터와 유사한 분포를 유지하는 대량의 증대 데이터를 생성함으로써 데이터 부족을 처리하고 데이터 다양성을 향상시키는 것임
- 이 작업에서 저자들은 데이터 증대를 위한 모델 기반 접근 방식으로 뛰어난 성능 때문에 역번역을 사용함
- 저자들이 사용한 사전 미세 조정이란 새로운 중간 학습 단계를 도입하는 것으로, 이 단계에서는 사전 학습된 모델을 미세 조정하기 전에 데이터 증대를 통해 생성된 데이터로 모델의 초기 표현을 학습함으로써 모델이 하류 작업의 불균형 분포에 더 잘 맞도록 함
- 이 연구에서 제안된 사전 미세 조정 전략은 다양한 불균형 데이터셋에 대해 테스트되었으며, 특히 인위적으로 생성된 불균형 데이터세트와 실제 응용 프로그램인 ADME 분류를 위한 FDA 약물 라벨링 데이터세트에서 모델 성능의 개선을 보여줌
- 사전 미세 조정을 통한 학습 전략은 소수 클래스에 대한 일반화 성능을 향상시키는 데 특히 효과적임이 드러남
- 이는 불균형 데이터 학습에 있어서 중요한 진전을 나타냄
-
연구 결과는 또한 데이터 증대 기술이 모델의 과적합을 방지하고, 원본 데이터와 유사한 분포를 가진 새로운 학습 예제를 생성함으로써 모델의 데이터 다양성을 향상시킬 수 있음을 보여줌
- Real world data often shows long-tail distributions with severe class imbalances
- In imbalanced datasets, when certain classes have many more samples than others, models learn better on majority class samples but generalize poorly on minority classes
- The authors’ key approach is to innovatively use Data Augmentation (DA) techniques to create a large amount of augmented data that maintains a distribution similar to the original data, addressing data scarcity and improving data diversity
- For data augmentation, the authors used a model-based approach, back-translation, due to its superior performance
- The authors introduced a new intermediate learning stage called pre-finetuning. In this stage, the model learns an initial representation of the data generated through data augmentation before fine-tuning the pre-trained model, helping it better fit the imbalanced distribution of the downstream task
- The proposed pre-finetuning strategy was tested on various imbalanced datasets, particularly on artificially created imbalanced datasets and a real-world application, the FDA drug labeling dataset for ADME classification, showing improvements in model performance
- The learning strategy through pre-finetuning proved especially effective in improving generalization performance on minority classes, marking a significant advancement in learning on imbalanced data
- The results also demonstrated that data augmentation techniques can prevent model overfitting and improve model data diversity by generating new learning examples that retain a distribution similar to the original data