짧은 요약 :  

*LM 단일 다큐로 생성  
**링크버트는 연관성 주목(docu간)  
**MLM+RDP(Related Document Prediction)  
**general&bio fields에서 SOTA

단어정리

augmente: 증가시키다, 증강
authogonal: 직교의, 공통점이 없는
preliminaries: 서두의, 예비의
salience: 돌출, 특징, 성질
multi-hop: 다중홉?, 다중 반사?, 여러차례를 거쳐서 하는, 1단계->2단계 단계단계 거쳐서 예를들어 추론하는
take over: 인수하다, 매입
prepend: ~인 척하다, 가정하다, 상상하다, 가짜의, 상상의, 속이다
salient: 현저한, 돌출된, 중요한
efficacy: 효능

1 Introduction

LM은 NLP에서 중요 성과
*text분류, QA
**text->지식화
**기존 LM은 단일 docu 중심
**링크사용하지 않는 한계가 있고 의존관계도 모름(사용도 안함)
**그래서 본 논문에서 사용
링크버트
**내부링크(지식, hyperlink) 이용
**앵커텍스트(anchor text) 샘플링
**(1) 연속 segment (한 문서의)
**(2) 랜덤 문서의 랜덤 segment
**(3) 링크 탄 문서의 segment
**위의 샘플링된 문서 segment pair로 학습
**MLM은 concept 위주로 하여 학습
**DRP은 두 segment 관계를 학습
*self-supervised graph 학습서 영향받음
**LM+grap-based
**일반도메인:위키글+link
**biomedi-PubMed글, 인용 링크
**평가: QA
**링크버트가 baseline 향상
**일반 MRQA서 4% F1점수 향상(GLUE)
**bio서 Pubmed 버트 압도(+3BLURB스코어, +7% in MedQA USMLE)
**docu 이해, FSQA에서 향상 보임

Retrieval-augmented LMs

탐색 증가 LM
**LM위한 검색 모듈
**앵커 텍스트 주어짐(질문같은)
**모델 향상(답 예측 같은)
**연관 docu 제시 기대
**pretrianing x
*본 논문은 검색 초점 x
**P-T -> LM으로 지식 work와는 다른 방식의 docu link 사용
*P-T LM 연관 docu
**여러 연관 docu 사용
**same topic -> same LM context 연구 있음
**본 연구에선 hyperlink 집중 -> DRP

Hyperllinks and citation links for NLP

*하이퍼링크 도움 됨
**관련 연구 따르면 open domain QA, 검색, 요약, 추천분야에서 성능 보임
**본 논문은 LM context 학습에 사용

Graph-augmented LMs

*그래프 강화 LM
**그래프 보강 LM은 엔티티&엣지 관계 포착
**LM + KG 임베딩 동시 학습
**LM + GNN on KG
**본 논문은 docu 관계만 사용

3 Preliminaries

*fenc(encoder) : P-T 임베딩 생성
*fhead(head) : down stream task

Masked language modeling (MLM)

*MLM
**15% 토큰 masking 하는데 이 중 80%는 mask, 10%는 랜덤, 10%는 그대로

Next sentence prediciont (NSP)

*NSP
**(1)next segment
**(2) random
**[CLS] Xa [SEP] Xb [SEP] 이런 식으로 입력받아서 학습
**[cls]는 next yes or no

*본 논문은 MLM & NSP 기반

4 LinkBERT

*링크버트는 LM(MLM + DRP)

4.1 Document graph

*DRP : link(하이퍼링크)
**sim척도: TF-IDF cosine sim, top k docu

4.2 Pretraining tasks

Creating input instances

LM input
**link된 docu들, 같은 context window에
**single or random docu
**엥커텍스트 뽑고 다음 seg 위해
**(1) 연속 seg 샘플 뽑음(같은 코퍼스에서)
**(2) 랜덤 seg(다른 코퍼스)
**(3) 링크 seg(하이퍼링크)
**두 seg로 학습 -> [CLS] XA [SEP] XB [SEP] 형태

Training objectives

*목적함수 2개로 MLM + DRP(NSP와 유사)

Graph machine learning perspective

그래프 머신러닝
**graph self-supervised 영감 받음
**node 피처 예측, link 예측(graph의 내용 구조인 링크/피처)
**feature예측(MLM같은, segA서 sebB)
**DRP와 일치

4.3 Strategy to obtain linked documents

*link docu 얻기 전략
**link build(docu사이)
**3key 유용 링크 얻기

Relevance

*연관성
**docu 사이 의미적 연관성, 버트사용, 연속/랜덤/하이퍼링크 사용
**또는 lexical 유사 사용
**랜덤보다 유용

Salience

*특장점 가지는지
**링크가 new or usful 지식 제공하는지 모름, 이거 체크
**하이퍼링크가 잠재적 이득 than lexical sim 보다
**LM은 lexical sim인지에 좋음
**하이퍼링크 지식 배경지식에 적용
**hyperlink가 더 효과적, 그래서 사용

Diversity

*다양성
**고른 분포 만듬
**확률 역 분포 사용
**데이터마이닝에서 사용
**LM성능 높여줌

5 Experiments

*일반 도메인 먼저 P-T on Wiki&hyperlink
**downstream으로 체크, BERT와 비교, bio domain은 다음 섹션에서 다룸

5.1 Pretraining setup

Data.

*버트와 같은 data : wiki + Book Corpus
**wiki익스트랙터로 link 추출
***link, contiguous, random으로 training set준비, 각각 33%씩
**book에서 contiguous, random 각각 50%

Implementation.

사이즈
**tiny 4.4M para
**base 110M para
**large 340M para
**tiny 랜덤 초기화 사용, AdamW(beta1, beta2)=(0.9,0.98), l.r. warmup, 5,000스텝까지, linear decay
**총 10,000step학습, peak l.r:5e-3, weight decay 0.1, batch size2,048, 512toekn하루 RTX2080fp16
**base: peak 3e-4, 40,000스텝 학습, 4일, A100 GPU fp16
**large: 2e-4 peak 7일

Baselines

베이스라인
**링크버트tiny, 버트tiny 비교
**링크만 다룸
**베이스 비교
**P-T vanila BERT 링크버트와 같은 step
**라지도 비교

5.2 Evaluation tasks

F-T & 평가

Extractive question answering(QA)

*QA
*Docu&Q input / answer output
**MRQA, HotpotQA, TriviaQA, NewsQA, SearchQA, SquAD 6개 평가
**MRQA shared task public test set 없음, 그래서 F-T 버트 따름 For Extractive QA

GLUE.

*GLUE
**General Language Understanding Evaluation
**set-level 분류
**CoLA, STS-2, MRPC, QQP, STS-B, MNLI, PTE 등 test

5.3 Results

링크버트가 모든 곳서 성능 압도

5.4 Analysis

링크버트 유용함 입증(결과로써)

Improved multi-hop reasoning

*링크버트가 큰 QA에서 성과 얻음
**HotpotQA, TriviaQA, SearchQA 큼
**SQuAD 작고 성과도 적음
**HotpotQA서 2-hop reasoning(한단계 타고 들어가서 추론, 성과 더 좋았음)

Improved understanding of document relations

다큐 관계 이해 향상
**MRQA는 정답 docu를 answer의 context로 사용
**검색서 좋은 Docu 찾는 것 중요
**QA는 docu 간 Relation알아야 성능 올라감
**이를 위해 SQuAD modify
**이상 큰 docu 1~2개 추가
*버트 성능 많이 떨어짐 2.8퍼
**링크버트는 0.81퍼 감소로 잘 버팀
**링크 중요하다는 점 알 수 있음
**DRP 통해 LM이 relation 더 잘 인지->이것이 목적(RT서)
**실제 성능 증가로 확인

Improved few-shot QA performance

*링크버트 F.S서도 좋음 확인(MRQA test에서)
**NaturalQ 5.4% vs 1.8$
**15% vs 7% in error reduce
*링크버트가 더 지식 많이 쌓음 의미함

5.5 Ablation studies

*경감스터디(성능 확인 위해 spec 달리하여 test)

What linked documents to feed into LMs?

*어떤 링크 docu가 LM으로?
**relevance 무시할 경우 버트처럼 성능 떨어짐
**lexical sim link 쓸 경우 성능 1.8%하락
**(논문 목적이 salient 지식 제공, lexical sim으로 불충분)
**(그래서 lexi sim이 BERT보단 2.2% 좋음)
**diversity 무시할 경우 1% 성능 저하
**즉, 좋은 input은 relevance/salience/diversity 모두 고려하는 것이고, 이들 모두 의미적으로 중요함

Effect of the DRP objective

*DRP 목적함수의 효과
**DRP 안 사용할 경우 QA서 성능 많이 감소됨
**DRP가 LM에 relation 학습하게 해줌 의미

6 Biomedical LinkBERT(BioLinkBERT)

*바이오링크버트
**P-T LM bio text로 성능 올림
**PubMed data 사용, 서론,인용(bio paper)로 구성, 이전 WORk는 Raw text만 사용
**인용 많아서 link 풍부
**이러한 인용 사용 LM이 학습
**PubMed 로 학습 + 링크(인용)
**베이스라인으로 sota인 pubmed버트 비교(버트와 동일 구조)

6.1 Pretraining setup

Data.

PubMed(21GB) data 사용
Pubmed Parser로 인용 추출, conti, rand, link 앞선 것 처럼 33%씩 추출하여 사용

Implementation.

바이오링크버트 베이스(110M para) as PubmedBERT parameter 개수 따름
**peak l.r 6e-4, batch:8,192, train:62,500steps, warm up10% steps and linear decay, 7일A100gpu fp16
**Pubmed버트 large없지만 바이오링크버트 Large(340M para) 구현
**peak l.r:4e-4, warup 20%, 21day A100gpu fp16

Baselines

바이오링크버트와 펍메드버트 비교

6.2 Evaluation tasks

BLURB & MedQA-USMLE 두 task

BLURB

*BLURB 5개 NER, PICO(population, intervention, comparison, and outcome) 추출, 문장Sim, docu분류, 2QA
**PubMedBERT처럼 F-T따름

MedQA-USMLE

*사지선다QA
**bio&clinical 지식
**미국의료면허시험 Test
**multi-hop reasoning필요(증상, 추출(원인), 진단)
**Jin(2021) F-T따름

MMLU-professional medicine

*복수정답 QA 의료 추론 사용(거대 데이터셋)
**MediQA-USMLE처럼 FT& test

6.3 Results

BLURB.

*결과
**BLURB에서 바이오버트가 압도

MedQA-USMLE

*바이오링크버트 Base 2% 향상, Large 5% 향상, total 7% 압도, sota
**멀티합 필요 경우서 매우 강함

MMLU-professional medicine

*QA서 50%정확도(340M para)
**GPT3같은 대형 모델 압도(175B para로 39% 정확도)
**unifiedQA 11B(43% 정확도)
**효과적 P-T LM이 압도(QA서)

7 Conclusion

*결론
**링크버트(일반, 의료) 좋은 성과 보임(버트 압도)
**다운스트림에서 Multihop서 강함, FS-QA 효과적

단어정리

1 Introduction

2 Related work

Retrieval-augmented LMs

Hyperllinks and citation links for NLP

Graph-augmented LMs

3 Preliminaries

Masked language modeling (MLM)

Next sentence prediciont (NSP)

4 LinkBERT

4.1 Document graph

4.2 Pretraining tasks

Creating input instances

Training objectives

Graph machine learning perspective

4.3 Strategy to obtain linked documents

Relevance

Salience

Diversity

5 Experiments

5.1 Pretraining setup

Data.

Implementation.

Baselines

5.2 Evaluation tasks

Extractive question answering(QA)

GLUE.

5.3 Results

5.4 Analysis

Improved multi-hop reasoning

Improved understanding of document relations

Improved few-shot QA performance

5.5 Ablation studies

What linked documents to feed into LMs?

Effect of the DRP objective

6 Biomedical LinkBERT(BioLinkBERT)

6.1 Pretraining setup

Data.

Implementation.

Baselines

6.2 Evaluation tasks

BLURB

MedQA-USMLE

MMLU-professional medicine

6.3 Results

BLURB.

MedQA-USMLE

MMLU-professional medicine

7 Conclusion