짧은 요약(Abstract) :    
* 레이블된 데이터 없이 이미지의 의미 학습 증명  
** Image based Joint Embedding Predictive Architecture(이미지기반 융합 임베딩 추론 구조, I-JEPA) 제안  
** 이미지로부터 비생성형 자기 지도 학습  
** 하나의 컨텍스트 블록에서 다양한 target block을 예측, 같은 이미지를 학습용으로 사용  
** 마스킹이 핵심  
** 비전트랜스포머와 융합으로 스케일링이 용이  
* 즉, 컨텍스트 텍스트를 갖고 image와 target image들로 학습을 진행해서 맞추게끔 하는 것인데(일종의 마스킹, 타겟 텍스트는 없고) ViT 융합되어 있고 스케일링 가능

[2023]Self-Supervised Learning from Images with a Joint-Embedding Predictve Architecture

단어정리

1 Introduction