[2021]Korean Language Understanding Evaluation

May 30, 2023

짧은 요약(Abstract) :    
* 한국언어이해 평가 벤치마크 소개  
* 8가지 포함(TC, STS, NLI, NER, RE, DP-DependencyParsing, MRC, DST-DialogueStateTracking)  
* PLM 학습(KLUE-BERT, KLUE-RoBERTa(SOTA))  
* 이슈 필터링(편견bias, 유해toxin, 개인정보PII-PersonalInformationIdentifier)

Paper with my notes

~~Lecture link~~

단어정리

pragmatics: 실용주의, 화용론
** 화용론? 화자와 청자의 관계에 따라 언어 사용이 어떻게 바뀌는지, 화자의 의도와 발화의 의미는 어떻게 다를 수 있는지 등에 대한 연구
** ‘말하는 이, 듣는 이, 시간, 장소 따위로 구성되는 맥락(context)과 관련하여 문장의 의미를 체계적으로 분석하려는 의미론의 한 분야’
** 언어행위(speech act), 전제(presupposition 또는 PSP), 함축(implicature), 직시(deixis), 정보구조(information structure 또는 information packaging)등이 화용론에서 주요하게 다루는 주제
preemptively: 선제적으로
agglutinative nature: 교착 성질
agglutinative: 교착, 교착어(한국어-조사 등이 붙음)

1 Introduction

버트, GPT3 같은 PLM의 성공이유는 GLUE나 SupserGLUE같은 효율적이고 잘 설계된 벤치마크 덕분
** syntax, semantics, pragmatics 잘 포함한 NLU 벤치마크인 것이 이유
** 다양 언어들에서 GLUE의 성공을 보고 GLUE와 유사한 언어별 벤치마크 생성(다국어 포함)
한국어도 그래서 GLUE 유사 벤치마크 시도
** 새로운 base 코포라부터 구축
*** 불법/편견/개인정보 문제 피할 수 있음
** 8KLUE Task
** PLM & tokenizer

2 KLUE Benchmark

2.1 Design Principles

디자인 원칙
** 다양 task/코포라 커버
** 8 task/news, 백과사전, 리뷰, 스마트홈, 한국어스타일 포맷
** 모두에게 공개
** 정확, 모호하지 않은 태깅
*** 가이드라인 꼼꼼하게 만듬
PLM에서 윤리문제 줄임
** toxin(욕설, 성적인표현, 공격), bias(젠더, 종교, 인종), PII(개인정보) 제거

2.2 Source Corpora

CC BY (-SA) 라이센스 기반 또는 상업이용을 허용

2.3 Considerations in Annotation

고려사항
** 한글 특성 잘 반영: agglutinative nature(교착특성) 잘 반영하게 가이드 in NER, POS, DP
** 정확태그 획득(가이드 통해..)
나쁜거 제거
** bias, hate(Moon 정의 따름): 지나친 일반화, 젠더, 인종, 배경, 국적, 종족, 정치견해, 피부색, 종교, 장애, 나이, 외모, 경제력, 직업
** hate:공격, 모욕, 냉소
** Privacy PII 인식
** KISA 가이드 따름

2.4 Tasks

8개 NLU 소개(how to build)
** hate, bias PII 제외

KLUE-TC

KLUE 토픽 분류
** 다른 나라꺼 보고 있으니 추가
*** 다른 나라에서 뉴스 썼으니 우리나라에서도 사용
** 정치, 경제, 사회, 문화, 세계, IT/과학, 스포츠
** 단일문장분류
** macroF1으로 분류
연합뉴스 헤드라인 태그(사전 클래스와 차이 있었음)
** 13명 70,000개 태그
** 각 헤드라인 당 3명
** invalid와 다수결로 판갈음 안 될 시 제외

KLUE-STS

STS는 의미적 유사도에 대한 regression task
** MT, 요약, QA의 기반(NLP의 기반)
** 비교 테스크
** 0,1 이진화도 진행
** F1으로 평가
** AIRBNB, POLICY(뉴스), RTT(Rount Trip Translation 번역하고 다시 원래 언어로 번역) 사용(레이블 x), PARAKQC(레이블o) 사용, 19명이 레이블링
*** 13,244 문장쌍

KLUE-NLI

전제와 가설 사이 관계 추출(3클래스 분류)
** 참(포함), 거짓(역설), 판정불가(중립)
** SNLI, MNLI와 비슷하게 데이터셋 구축
** 알려진 레이블링요소 피함
** 저제문장 수집, 사람이 가설 3개 생성
** 다른 사람이 레이블링(검증)
** 총 30,998쌍

KLUE-NER

사람, 위치, 조직, 시간, 양, 재화 같은 개체명 인식
** QA, IE 등 NLU에 속함
** 시간, 장소, 조직, 날짜, 시간, 양 6개 태그 BIO 포맷 ** 위키트리뉴스, NSMC(Naver? Movie review)를 원천으로 샘플링
** 한국텔레커뮤니케이션기술연합(TTA) NER가이드 따름
** 언어학자, NLP연구자 검증
** 31,009 문장