한줄 요약: GQA(Groupt Query Attention), SWA(Sliding Window Attention), 캐시 등을 사용해서   빠르고 효율적인 LLM개발  

짧은 요약(Abstract) :    
* 저자들은 Mistral 7B 소개함  
* 이는 70 개의 파라미터를 가진 언어 모델로, 우수한 성능과 효율성을 위해 고안됨  
* Mistral 7B 모든 평가 벤치마크에서 최고의 오픈 13B 모델(Llama 2) 능가하고, 추론 수학  코드 생성에서 가장 우수한 34B 모델(Llama 1) 초과함  
* 저자들의 모델은  빠른 추론을 위해 그룹화된 쿼리 주의(GQA) 사용하고, 임의 길이의 시퀀스를 효과적으로 처리하기 위해 슬라이딩 윈도우 주의(SWA) 결합되어, 추론 비용을 줄임  
* 또한, 저자들은 인간  자동 벤치마크 모두에서 Llama 2 13B -  모델을 능가하는 지시에 따라 미세 조정된 모델인 Mistral 7B - Instruct 제공함  
* 저자들의 모델들은 Apache 2.0 라이선스하에 공개됨  

Useful sentences :  


Paper link
Lecture link


단어정리

  • myriad of: 다양한, 무수한
  • incur: 초래하다, 발생하다, 끼치다
  • harassing: ‘괴롭히다’, ‘폭력적이거나 성가신 행동을 반복적으로 하다’


1 Introduction

  • 자연 언어 처리(NLP) 분야는 급속히 발전하고 있으며, 모델 성능을 높이기 위한 경쟁은 종종 모델 크기의 증가를 필요로 함
  • 그러나 이러한 확장은 계산 비용과 추론 지연 시간을 증가시켜, 실제 세계 시나리오에서의 배포 장벽을 높임
  • 이러한 맥락에서, 고성능과 효율성을 모두 제공하는 균형 잡힌 모델을 찾는 것이 매우 중요해짐
  • 저자들의 모델인 Mistral 7B는 세심하게 설계된 언어 모델이 높은 성능을 제공하면서도 효율적인 추론을 유지할 수 있음을 보여줌
  • Mistral 7B는 모든 테스트 벤치마크에서 이전 최고의 13B 모델(Llama 2)을 능가하고, 수학 및 코드 생성에서 최고의 34B 모델(LLaMa 34B)을 초과함
  • 또한, Mistral 7B는 코드 관련 벤치마크가 아닌 부문에서 성능을 희생하지 않으면서 Code-Llama 7B의 코딩 성능에 근접함

  • Mistral 7B는 그룹화된 쿼리 주의(GQA)와 슬라이딩 윈도우 주의(SWA)를 활용함
  • GQA는 추론 속도를 크게 가속화하고 디코딩 중 메모리 요구 사항을 줄여, 더 높은 배치 크기를 허용함으로써 실시간 애플리케이션에 중요한 높은 처리량을 가능하게 함
  • 추가로, SWA는 더 긴 시퀀스를 더 효과적으로 처리하도록 설계되어, LLM에서 흔히 발생하는 한계를 완화하는데 기여함
  • 이러한 주의 메커니즘은 Mistral 7B의 향상된 성능과 효율성에 공동으로 기여함

  • 저자들의 모델인 Mistral 7B는 Apache 2.0 라이선스 하에 출시됨
  • 이 출시는 AWS, GCP 또는 Azure와 같은 클라우드 플랫폼에서 로컬 또는 vLLM 추론 서버 및 * SkyPilot을 사용하여 쉽게 배포할 수 있는 참조 구현과 동반됨
  • Hugging Face와의 통합도 간소화되어 더 쉬운 통합을 가능하게 함
  • 게다가, Mistral 7B는 다양한 작업에 대해 쉽게 미세 조정할 수 있도록 설계됨
  • 저자들은 Mistral 7B에서 미세 조정된 챗 모델을 제시하며, 이 모델은 Llama 2 13B – Chat 모델을 크게 능가하는 우수한 성능을 보임

  • Mistral 7B는 고성능을 달성하면서도 대규모 언어 모델을 효율적으로 유지하는 목표를 균형 * 있게 달성하는 중요한 단계임
  • 저자들의 작업을 통해, 커뮤니티가 다양한 실제 세계 애플리케이션에서 사용할 수 있는 더 저렴하고, 효율적이기 위한 경쟁은 종종 모델 크기의 확장을 필요로 함
  • 그러나 이러한 확장은 계산 비용과 추론 지연 시간을 증가시켜 실제 실세계 시나리오에서의 배포에 장벽을 만듦
  • 이러한 맥락에서 고성능과 효율성을 모두 제공하는 균형 잡힌 모델을 찾는 것은 매우 중요함
    저자들의 모델 Mistral 7B는 신중하게 설계된 언어 모델이 높은 성능을 제공하면서도 효율적인 추론을 유지할 수 있음을 보여줌
  • Mistral 7B는 모든 테스트 벤치마크에서 이전 최고의 13B 모델(Llama 2)을 능가하고 수학 및 코드 생성에서 최고의 34B 모델(LLaMa 34B)을 초과함
  • 또한 Mistral 7B는 코드 관련 벤치마크가 아닌 벤치마크에서 성능을 희생하지 않으면서 Code-Llama 7B의 코딩 성능에 접근함

  • 저자들의 작업을 통해 저자들은 고성능을 유지하면서 대규모 언어 모델을 효율적으로 유지하기 위한 중요한 단계를 밟음
  • 저자들의 목표는 커뮤니티가 다양한 실제 애플리케이션에서 사용할 수 있는 더 저렴하고 효율적이며 고성능 언어 모델을 만드는 데 도움이 되는 것임


2 Architectural details

  • 저자들의 모델은 트랜스포머 아키텍처를 기반으로 함
  • 주요 아키텍처 파라미터는 요약된 표에 정리됨
  • 저자들은 슬라이딩 윈도우 주의(SWA)를 도입하여 표준 주의 메커니즘 대비 연산량을 줄이고 메모리 사용량을 감소시킴
  • 이는 입력 시퀀스 내의 특정 범위 내의 토큰만 주의를 기울이게 함으로써 실현됨
  • 또한, 롤링 버퍼 캐시를 사용하여 고정된 주의 범위로 인한 캐시 크기 제한을 가능하게 함
  • 이를 통해 캐시 메모리 사용량을 크게 줄이면서도 모델 품질에 영향을 주지 않음
  • 프리필과 청킹 기법을 사용하여 시퀀스 생성 시 미리 알려진 프롬프트를 캐시에 저장하고, 필요에 따라 캐시와 청크에 대한 주의를 계산하여 처리 효율성을 높임


3 Results

  • 저자들은 자체 평가 파이프라인을 사용하여 공정한 비교를 위해 Llama와 Mistral 7B를 비교하고 모든 벤치마크를 재실행함
  • 다양한 작업에 대한 성능을 다음과 같이 측정함
  • 상식 추론(0샷): Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge, CommonsenseQA
  • 세계 지식(5샷): NaturalQuestions, TriviaQA
  • 독해 이해(0샷): BoolQ, QuAC
  • 수학: GSM8K(8샷) 및 MATH(4샷)
  • 코드: Humaneval(0샷) 및 MBPP(3샷)
  • 인기 있는 종합 결과: MMLU(5샷), BBH(3샷), AGI Eval(3-5샷 영어 객관식 질문만)

  • Mistral 7B는 모든 메트릭에서 Llama 2 13B를 능가하고 대부분의 벤치마크에서 Llama 1 34B를 뛰어넘음
  • 특히 코드, 수학, 추론 벤치마크에서 뛰어난 성능을 보임


4 Instruction Finetuning

  • 저자들의 모델의 일반화 능력을 평가하기 위해, 저자들은 Hugging Face 저장소에서 공개적으로 이용 가능한 지시 데이터셋에 Mistral 7B를 미세 조정함
  • 독점적인 데이터나 훈련 기법은 사용되지 않음
  • Mistral 7B - Instruct 모델은 기본 모델이 쉽게 뛰어난 성능을 달성할 수 있음을 보여주는 간단하고 초기적인 시연임
  • MT-Bench에서 모든 7B 모델보다 우수한 성능을 보이고 13B - 챗 모델과 비교할 수 있는 성능을 보임
  • 독립적인 인간 평가는 https://llmboxing.com/leaderboard에서 실시됨
  • 이 평가에서는 참가자들에게 일련의 질문과 두 모델의 익명 응답이 제공되며, 선호하는 응답을 선택하도록 요청됨
  • 2023년 10월 6일 기준으로 Mistral 7B에 의해 생성된 출력이 Llama 2 13B에 비해 5020회 선호됨


5 Adding guardrails for front-facing applications

  • AI 생성 시 안전장치를 적용하는 능력은 대면 응용 프로그램에서 중요함
  • 이 섹션에서는 시스템 프롬프팅을 활용하여 모델 위에 선택적으로 출력 제약을 적용하는 방법을 강조함
  • 또한 저자들의 모델인 Mistral 7B가 애플리케이션에서 품질 콘텐츠를 강제하는 데 유용할 수 있는 세밀한 콘텐츠 모더레이션을 수행할 수 있는 능력을 보여줌
  • 시스템 프롬프트를 사용하여 안전장치를 적용하기 위해 저자들은 Llama 2와 유사한 작업을 수행하는 특정 안전장치 내에서 답변을 생성하도록 모델을 안내하는 시스템 프롬프트를 도입함
  • 이 프롬프트를 사용하면 사용자가 모델 유틸리티와 안전장치 집행 사이의 파레토 최전선에서 이동할 수 있음

  • 항상 세심하게 도와주고 진실과 존중으로 응답하며 최대한의 유틸리티를 제공하되 안전하게 행동해야 함
  • 해로운, 비윤리적인, 편견이 있는 또는 부정적인 콘텐츠를 피하고 응답이 공정성과 긍정성을 촉진하도록 해야 함

  • 안전성 평가를 위해 175개의 안전하지 않은 프롬프트 집합을 사용함
  • 권장 시스템 프롬프트를 사용하면 모델이 유해한 질문에 대해 100% 적절하게 답변을 거절함

6 Conclusion

  • 저자들의 연구에 따르면, Mistral 7B는 언어 모델이 이전에 생각했던 것보다 더 많은 지식을 압축할 수 있음을 보여줌
  • 이는 흥미로운 관점을 제시함: 지금까지 이 분야는 모델 능력과 훈련 비용을 직접 연관 짓는 2차원의 스케일링 법칙에 중점을 두었음
  • 문제는 오히려 3차원적(모델 능력, 훈련 비용, 추론 비용)이며, 가능한 가장 작은 모델로 최고의 성능을 얻기 위해 탐색할 여지가 많이 남아 있음