[2022]LinkBERT: Pretraining Language Models with Document Links
짧은 요약 :
*LM 단일 다큐로 생성
**링크버트는 연관성 주목(docu간)
**MLM+RDP(Related Document Prediction)
**general&bio fields에서 SOTA
단어정리
- augmente: 증가시키다, 증강
- authogonal: 직교의, 공통점이 없는
- preliminaries: 서두의, 예비의
- salience: 돌출, 특징, 성질
- multi-hop: 다중홉?, 다중 반사?, 여러차례를 거쳐서 하는, 1단계->2단계 단계단계 거쳐서 예를들어 추론하는
- take over: 인수하다, 매입
- prepend: ~인 척하다, 가정하다, 상상하다, 가짜의, 상상의, 속이다
- salient: 현저한, 돌출된, 중요한
- efficacy: 효능
1 Introduction
- LM은 NLP에서 중요 성과
*text분류, QA
**text->지식화
**기존 LM은 단일 docu 중심
**링크사용하지 않는 한계가 있고 의존관계도 모름(사용도 안함)
**그래서 본 논문에서 사용
링크버트
**내부링크(지식, hyperlink) 이용
**앵커텍스트(anchor text) 샘플링
**(1) 연속 segment (한 문서의)
**(2) 랜덤 문서의 랜덤 segment
**(3) 링크 탄 문서의 segment
**위의 샘플링된 문서 segment pair로 학습
**MLM은 concept 위주로 하여 학습
**DRP은 두 segment 관계를 학습
*self-supervised graph 학습서 영향받음
**LM+grap-based
**일반도메인:위키글+link
**biomedi-PubMed글, 인용 링크
**평가: QA
**링크버트가 baseline 향상
**일반 MRQA서 4% F1점수 향상(GLUE)
**bio서 Pubmed 버트 압도(+3BLURB스코어, +7% in MedQA USMLE)
**docu 이해, FSQA에서 향상 보임
2 Related work
Retrieval-augmented LMs
탐색 증가 LM
**LM위한 검색 모듈
**앵커 텍스트 주어짐(질문같은)
**모델 향상(답 예측 같은)
**연관 docu 제시 기대
**pretrianing x
*본 논문은 검색 초점 x
**P-T -> LM으로 지식 work와는 다른 방식의 docu link 사용
*P-T LM 연관 docu
**여러 연관 docu 사용
**same topic -> same LM context 연구 있음
**본 연구에선 hyperlink 집중 -> DRP
Hyperllinks and citation links for NLP
*하이퍼링크 도움 됨
**관련 연구 따르면 open domain QA, 검색, 요약, 추천분야에서 성능 보임
**본 논문은 LM context 학습에 사용
Graph-augmented LMs
*그래프 강화 LM
**그래프 보강 LM은 엔티티&엣지 관계 포착
**LM + KG 임베딩 동시 학습
**LM + GNN on KG
**본 논문은 docu 관계만 사용
3 Preliminaries
*fenc(encoder) : P-T 임베딩 생성
*fhead(head) : down stream task
Masked language modeling (MLM)
*MLM
**15% 토큰 masking 하는데 이 중 80%는 mask, 10%는 랜덤, 10%는 그대로
Next sentence prediciont (NSP)
*NSP
**(1)next segment
**(2) random
**[CLS] Xa [SEP] Xb [SEP] 이런 식으로 입력받아서 학습
**[cls]는 next yes or no
*본 논문은 MLM & NSP 기반
4 LinkBERT
*링크버트는 LM(MLM + DRP)
4.1 Document graph
*DRP : link(하이퍼링크)
**sim척도: TF-IDF cosine sim, top k docu
4.2 Pretraining tasks
Creating input instances
LM input
**link된 docu들, 같은 context window에
**single or random docu
**엥커텍스트 뽑고 다음 seg 위해
**(1) 연속 seg 샘플 뽑음(같은 코퍼스에서)
**(2) 랜덤 seg(다른 코퍼스)
**(3) 링크 seg(하이퍼링크)
**두 seg로 학습 -> [CLS] XA [SEP] XB [SEP] 형태
Training objectives
*목적함수 2개로 MLM + DRP(NSP와 유사)
Graph machine learning perspective
그래프 머신러닝
**graph self-supervised 영감 받음
**node 피처 예측, link 예측(graph의 내용 구조인 링크/피처)
**feature예측(MLM같은, segA서 sebB)
**DRP와 일치
4.3 Strategy to obtain linked documents
*link docu 얻기 전략
**link build(docu사이)
**3key 유용 링크 얻기
Relevance
*연관성
**docu 사이 의미적 연관성, 버트사용, 연속/랜덤/하이퍼링크 사용
**또는 lexical 유사 사용
**랜덤보다 유용
Salience
*특장점 가지는지
**링크가 new or usful 지식 제공하는지 모름, 이거 체크
**하이퍼링크가 잠재적 이득 than lexical sim 보다
**LM은 lexical sim인지에 좋음
**하이퍼링크 지식 배경지식에 적용
**hyperlink가 더 효과적, 그래서 사용
Diversity
*다양성
**고른 분포 만듬
**확률 역 분포 사용
**데이터마이닝에서 사용
**LM성능 높여줌
5 Experiments
*일반 도메인 먼저 P-T on Wiki&hyperlink
**downstream으로 체크, BERT와 비교, bio domain은 다음 섹션에서 다룸
5.1 Pretraining setup
Data.
*버트와 같은 data : wiki + Book Corpus
**wiki익스트랙터로 link 추출
***link, contiguous, random으로 training set준비, 각각 33%씩
**book에서 contiguous, random 각각 50%
Implementation.
사이즈
**tiny 4.4M para
**base 110M para
**large 340M para
**tiny 랜덤 초기화 사용, AdamW(beta1, beta2)=(0.9,0.98), l.r. warmup, 5,000스텝까지, linear decay
**총 10,000step학습, peak l.r:5e-3, weight decay 0.1, batch size2,048, 512toekn하루 RTX2080fp16
**base: peak 3e-4, 40,000스텝 학습, 4일, A100 GPU fp16
**large: 2e-4 peak 7일
Baselines
베이스라인
**링크버트tiny, 버트tiny 비교
**링크만 다룸
**베이스 비교
**P-T vanila BERT 링크버트와 같은 step
**라지도 비교
5.2 Evaluation tasks
F-T & 평가
Extractive question answering(QA)
*QA
*Docu&Q input / answer output
**MRQA, HotpotQA, TriviaQA, NewsQA, SearchQA, SquAD 6개 평가
**MRQA shared task public test set 없음, 그래서 F-T 버트 따름 For Extractive QA
GLUE.
*GLUE
**General Language Understanding Evaluation
**set-level 분류
**CoLA, STS-2, MRPC, QQP, STS-B, MNLI, PTE 등 test
5.3 Results
링크버트가 모든 곳서 성능 압도
5.4 Analysis
링크버트 유용함 입증(결과로써)
Improved multi-hop reasoning
*링크버트가 큰 QA에서 성과 얻음
**HotpotQA, TriviaQA, SearchQA 큼
**SQuAD 작고 성과도 적음
**HotpotQA서 2-hop reasoning(한단계 타고 들어가서 추론, 성과 더 좋았음)
Improved understanding of document relations
다큐 관계 이해 향상
**MRQA는 정답 docu를 answer의 context로 사용
**검색서 좋은 Docu 찾는 것 중요
**QA는 docu 간 Relation알아야 성능 올라감
**이를 위해 SQuAD modify
**이상 큰 docu 1~2개 추가
*버트 성능 많이 떨어짐 2.8퍼
**링크버트는 0.81퍼 감소로 잘 버팀
**링크 중요하다는 점 알 수 있음
**DRP 통해 LM이 relation 더 잘 인지->이것이 목적(RT서)
**실제 성능 증가로 확인
Improved few-shot QA performance
*링크버트 F.S서도 좋음 확인(MRQA test에서)
**NaturalQ 5.4% vs 1.8$
**15% vs 7% in error reduce
*링크버트가 더 지식 많이 쌓음 의미함
5.5 Ablation studies
*경감스터디(성능 확인 위해 spec 달리하여 test)
What linked documents to feed into LMs?
*어떤 링크 docu가 LM으로?
**relevance 무시할 경우 버트처럼 성능 떨어짐
**lexical sim link 쓸 경우 성능 1.8%하락
**(논문 목적이 salient 지식 제공, lexical sim으로 불충분)
**(그래서 lexi sim이 BERT보단 2.2% 좋음)
**diversity 무시할 경우 1% 성능 저하
**즉, 좋은 input은 relevance/salience/diversity 모두 고려하는 것이고, 이들 모두 의미적으로 중요함
Effect of the DRP objective
*DRP 목적함수의 효과
**DRP 안 사용할 경우 QA서 성능 많이 감소됨
**DRP가 LM에 relation 학습하게 해줌 의미
6 Biomedical LinkBERT(BioLinkBERT)
*바이오링크버트
**P-T LM bio text로 성능 올림
**PubMed data 사용, 서론,인용(bio paper)로 구성, 이전 WORk는 Raw text만 사용
**인용 많아서 link 풍부
**이러한 인용 사용 LM이 학습
**PubMed 로 학습 + 링크(인용)
**베이스라인으로 sota인 pubmed버트 비교(버트와 동일 구조)
6.1 Pretraining setup
Data.
PubMed(21GB) data 사용
Pubmed Parser로 인용 추출, conti, rand, link 앞선 것 처럼 33%씩 추출하여 사용
Implementation.
바이오링크버트 베이스(110M para) as PubmedBERT parameter 개수 따름
**peak l.r 6e-4, batch:8,192, train:62,500steps, warm up10% steps and linear decay, 7일A100gpu fp16
**Pubmed버트 large없지만 바이오링크버트 Large(340M para) 구현
**peak l.r:4e-4, warup 20%, 21day A100gpu fp16
Baselines
바이오링크버트와 펍메드버트 비교
6.2 Evaluation tasks
BLURB & MedQA-USMLE 두 task
BLURB
*BLURB 5개 NER, PICO(population, intervention, comparison, and outcome) 추출, 문장Sim, docu분류, 2QA
**PubMedBERT처럼 F-T따름
MedQA-USMLE
*사지선다QA
**bio&clinical 지식
**미국의료면허시험 Test
**multi-hop reasoning필요(증상, 추출(원인), 진단)
**Jin(2021) F-T따름
MMLU-professional medicine
*복수정답 QA 의료 추론 사용(거대 데이터셋)
**MediQA-USMLE처럼 FT& test
6.3 Results
BLURB.
*결과
**BLURB에서 바이오버트가 압도
MedQA-USMLE
*바이오링크버트 Base 2% 향상, Large 5% 향상, total 7% 압도, sota
**멀티합 필요 경우서 매우 강함
MMLU-professional medicine
*QA서 50%정확도(340M para)
**GPT3같은 대형 모델 압도(175B para로 39% 정확도)
**unifiedQA 11B(43% 정확도)
**효과적 P-T LM이 압도(QA서)
7 Conclusion
*결론
**링크버트(일반, 의료) 좋은 성과 보임(버트 압도)
**다운스트림에서 Multihop서 강함, FS-QA 효과적