한줄 요약: 첫 번째 단계에서는 모델이 지시어를 따르는 대화형 에이전트로서의 능력을 강화하고 두 번째 단계에서는 맥락을 통합하여 맥락 인식 또는 검색을 통한 생성 능력을 향상(RAG처럼). 추가적으로 파인튜닝과 인간태깅을 사용하였음  

짧은 요약(Abstract) :    
* 이 논문에서 저자들은 대화형 질문 응답(QA) 모델인 ChatQA를 소개하였음  
* 저자들은 큰 언어 모델(LLM)에서 대화형 QA의 zero-shot 결과를 크게 향상시킬 수 있는 두 단계 지시어 튜닝 방법을 제안하였음  
* 대화형 QA에서 검색을 통합하기 위해, 저자들은 다단계 QA 데이터셋에서 조밀한 검색기를 미세 조정  
* 이는 최신의 질의 재작성 모델을 사용하는 것과 비교할 수 있는 결과를 제공하면서 배포 비용을 크게 줄였음  
* 특히, 저자들의 ChatQA-70B 모델은 10개의 대화형 QA 데이터셋에서 평균 점수(54.14 대 53.90)로 GPT-4를 능가  
* 이는 OpenAI GPT 모델에서 생성된 합성 데이터에 의존하지 않고 달성되었음  

Useful sentences :

단어정리

conjecture: 추측, 가설
segment: 구분, 조각, 구분하다
aside: 잠시 주제에서 벗어나 다른 이야기 하겠습니다
swing ordering: 유연성이나 적응성을 나타낼 수 있음. 이 맥락에서 “swing ordering”은 주문 프로세스가 매우 유동적이며, 고객의 요구 사항이나 시장 조건의 변화에 신속하게 적응할 수 있는 시스템을 의미
speculate: 추측하다

1. Introduction

최근 ChatGPT와 같은 후속 연구들은 QA 모델을 구축하는 패러다임의 변화를 주도하고 있음
특히, 실제 애플리케이션에서 선호되는 QA 모델의 다음과 같은 측면에 초점을 맞추고 있음
i) 사용자가 QA 모델과 대화식으로 상호작용할 수 있으므로, 추가적인 질문을 쉽게 제기할 수 있음
ii) 일반적인 모델이 데이터셋 특정의 미세 조정 없이도 zero-shot 방식으로 답변을 생성할 수 있으며, 미세 조정된 전문가 모델의 정확도에 맞출 수 있음
iii) QA 모델이 개방 도메인 또는 긴 문서 설정에서 검색된 증거 조각을 통합할 수 있는 능력을 가지고 있으며, 제공된 맥락이 LLM의 맥락 창보다 훨씬 긴 경우에도 적용됨
이에 따라, 저자들은 이러한 세 가지 측면을 포괄하는 대화형 QA에 초점을 맞추었음
그러나 GPT-4와 같은 최신의 블랙박스 모델의 정확도에 맞먹는 대화형 QA 모델을 구축하는 것은 여전히 연구 커뮤니티에 큰 도전 과제임
이 작업에서 저자들은 자세한 사양과 GPT-4 수준의 정확도를 가진 백박스 대화형 QA 모델인 ChatQA-70B를 소개하며, 이는 제안된 두 단계 지시어 튜닝 레시피, 대화형 QA에서 검색을 향상시킨 검색기, 그리고 자세한 데이터 큐레이션 프로세스를 통해 달성되었음

2.1. Conversational QA

대화형 QA는 사용자 경험을 자연스럽게 향상시키는 방법으로, 후속 질문을 처리할 수 있음
모델이 필요에 따라 사용자에게 명확화 질문을 할 수 있으며, 이는 환각을 줄일 수 있음
그래서 QA 모델을 생산 환경에 배포할 때 기본 형식으로 사용되고 있음
최근 몇 년 동안 많은 대화형 QA 데이터셋이 소개되었으며, 이 데이터셋들은 모델이 제공된 맥락이나 문서를 기반으로 질문에 답변할 것을 요구함
제공된 맥락이나 문서는 다양한 도메인에서 온 텍스트 전용 문서일 수 있음
최신 LLM 기반의 일반적인 해결책과 달리, 대부분의 이전 연구들은 특정 도메인이나 데이터셋에서 미세 조정된 전문가 모델에 중점을 둠

2.2. Retrieval for Multi-Turn QA

대화형 QA는 개방 도메인 설정이나 제공된 문서가 LLM의 맥락 창보다 길 경우 검색을 통합하는 생성을 포함함
보통 조밀한 검색기는 주어진 단일 질문에 대해 상위 k개의 관련 청크를 검색하도록 훈련됨
대화형 QA에서 후속 질문들은 대화 이전의 언급된 개체를 지칭하는 대명사를 사용하여, 검색을 위한 충분한 정보를 포함하지 않을 수 있음
모든 대화 이력과 현재 질문을 함께 제공하는 것은 중복을 초래하여 부적절한 결과를 낼 수 있음

2.2.1. CONVERSATIONAL QUERY REWRITING

이전 해결책 중 대부분은 질의 재작성 방법임
최신 회차의 질문을 이전 대화 이력의 추가 정보 없이도 독립적인 질문으로 재작성하며, 이를 통해 검색 모델이 관련 맥락을 직접 검색할 수 있게 됨
질의 재작성 모델은 재작성된 질문을 입력으로 사용하여 필요한 맥락을 검색함으로써 추가적인 임베딩과 검색 비용 뿐만 아니라, 재작성 과정에서 상당한 계산 비용을 발생시킴
이 연구 분야를 지원하기 위해 여러 데이터셋이 수집되었으며, 다양한 질의 재작성 방법이 제안되었음

2.2.2. FINE-TUNING RETRIEVER FOR MULTI-TURN QA

이전 연구 중 일부는 단일 턴 질의 검색기를 대화형 질의와 맥락 쌍에 대해 미세 조정함으로써, 대화 이력과 현재 질의의 결합을 입력으로 직접 받아들일 수 있게 함
이 작업에서 저자들은 zero-shot 평가에 중점을 두고 있음
저자들은 고품질의 다단계 데이터셋에서 단일 턴 질의 검색기를 미세 조정한 후, 미세 조정된 검색기의 zero-shot 능력을 다섯 개의 벤치마크 데이터셋에서 평가함
놀랍게도, 이 간단한 접근법은 최신 질의 재작성 모델 즉, GPT-3.5-turbo와 비슷한 zero-shot 결과를 얻을 수 있음

2.3. Instruction Tuning

지시어 튜닝의 목표는 LLM에 자연어 지시어를 따를 수 있는 능력을 부여하는 것임
이 분야에서는 FLAN, Self-Instruct, Unnatural Instructions, Dolly, OpenAssistant 등과 같은 고품질의 지시어 튜닝 데이터셋 개발에 대한 연구가 급증하고 있음
지시어 튜닝에 대한 많은 연구가 진행되었지만, 몇몇 연구만이 QA에 대한 RAG 또는 맥락 인식 생성을 개선하는 데 초점을 맞추고 있음

3. ChatQA

이 절에서 저자들은 ChatQA를 위한 두 단계 지시어 튜닝 방법을 제안함
저자들의 방법은 사전 훈련된 LLM 기반 모델에서 시작함
첫 번째 단계에서는 지시어를 따르는 능력을 갖춘 대화형 에이전트로서의 모델을 위해 감독된 미세 조정을 적용함
그러나 이 모델의 맥락 인식이나 검색을 통한 생성 능력은 여전히 제한적임
따라서 맥락 인식 또는 검색을 통한 생성 능력을 향상시키기 위해 맥락 강화 지시어 튜닝이라는 두 번째 단계를 도입함

3.1. Stage-1: Supervised Fine-tuning

대규모 및 포괄적인 감독된 미세 조정(SFT) 데이터셋을 구성하기 위해, 저자들은 고품질 지시어 튜닝 데이터셋에서 128K SFT 샘플의 결합된 세트를 모음
이 데이터셋은 1) 소셜 대화 데이터셋인 Soda, 2) 상세한 답변이 포함된 장형 QA 데이터셋인 ELI5, 3) FLAN 및 사고 과정 데이터셋, 4) LLM 합성 지시어 튜닝 데이터셋인 Self-Instruct 및 Unnatural Instructions, 그리고 5) 사설 크라우드 소싱 대화형 데이터셋 및 두 개의 공개 인간 작성 대화 데이터셋인 OpenAssistant와 Dolly를 포함함
모든 SFT 데이터의 구조를 대화형 형식으로 통합함
먼저, LLM이 예의 바르고 도움이 되는 답변을 제공하도록 지도하는 일반적인 지시어를 설정하기 위해 시작 부분에 “System” 역할을 추가함
또한, 지시어 및 응답 쌍을 포함하기 위해 “User” 및 “Assistant” 역할을 추가함
이 통합된 형식을 사용하여 LLM 기반 모델에 미세 조정을 적용함

3.2. Stage-2: Context-Enhanced Instruction Tuning

모델의 대화형 QA 능력을 주어진 맥락에서 더 향상시키기 위해, 저자들은 두 번째 단계 지시어 튜닝을 수행함
구체적으로, 이 단계의 지시어 튜닝 데이터셋은 맥락화된 단일 턴 QA와 대화형 QA 데이터셋의 조합으로 구성됨
자세한 내용은 아래에서 더 설명됨
이 부분에서 저자들은 고품질 문서 기반 대화형 QA 데이터셋을 얻는 것이 중요한 요소 중 하나임을 강조함
이를 위해 저자들은 인터넷에서 다양한 주제를 다루는 문서를 수집한 후, 주석자에게 문서에 대해 궁금한 질문과 답변을 하는 에이전트 역할을 하도록 지시함
이 과정을 통해 각 문서에 대해 평균 5번의 사용자-에이전트 턴을 포함하는 총 7천 개의 대화형 QA 대화를 생성함
답변을 찾을 수 없는 경우를 처리하기 위해, 모델이 명시적으로 “답변할 수 없음”을 표시하도록 하는 데이터 샘플도 포함시킴
이를 위해 주석자는 사용자의 질문과 관련 있는 모든 맥락 위치를 식별하도록 요청받았으며, 이를 통해 답변이 불가능한 시나리오를 구성함
마지막으로, 저자들은 HumanAnnotatedConvQA의 품질을 검증하기 위해 GPT-3.5-turbo를 사용하여 합성 대화형 QA 데이터셋을 생성함
이는 대규모 합성 데이터 생성에 대한 이전 연구와는 대조적으로, 중간 크기의 고품질 합성 데이터에 초점을 맞춘 것임

3.2.1. HUMAN ANNOTATED DATA

저자들은 고품질의 문서 기반 대화형 QA 데이터셋을 확보하는 것이 핵심 요소 중 하나임을 강조함
이를 위해 저자들은 인터넷에서 다양한 주제를 다루는 7천 개의 문서를 수집함
그런 다음 주석자에게 문서에 대해 궁금한 질문을 하고, 그에 대한 답변을 하는 에이전트 역할을 하도록 지시함
이 과정을 통해 각 문서마다 평균 5번의 사용자-에이전트 턴을 포함하는 총 7천 개의 대화형 QA 대화를 생성함
답변을 찾을 수 없는 경우를 처리하기 위해, 모델이 명시적으로 “답변할 수 없음”을 표시하도록 하는 데이터 샘플도 준비함
이를 위해 주석자는 사용자의 질문과 관련 있는 모든 맥락 위치를 식별하도록 요청받았으며, 이를 통해 답변이 불가능한 시나리오를 구성함

3.2.2. SYNTHETIC DATA GENERATION

고품질의 문서 기반 대화형 QA 데이터셋을 확보하는 것이 핵심 요소 중 하나임을 강조하며, 이를 위해 저자들은 인터넷에서 다양한 주제를 다루는 7천 개의 문서를 수집함
그런 다음 주석자에게 문서에 대해 궁금한 질문을 하고, 그에 대한 답변을 하는 에이전트 역할을 하도록 지시함
이 과정을 통해 각 문서마다 평균 5번의 사용자-에이전트 턴을 포함하는 총 7천 개의 대화형 QA 대화를 생성함
답변을 찾을 수 없는 경우를 처리하기 위해, 모델이 명시적으로 “답변할 수 없음”을 표시하도록 하는 데이터 샘플도 준비함
이를 위해 주석자는 사용자의 질문과 관련 있는 모든 맥락 위치를 식별하도록 요청받았으며, 이를 통해 답변이 불가능한 시나리오를 구성함

3.2.3. TRAINING BLENDS

이 부분에서는 저자들이 두 번째 단계 지시어 튜닝을 위한 교육 혼합물의 세부 사항을 소개함
QA 능력을 강화하기 위해, 저자들은 문서나 표를 다루는 TAT-QA 데이터셋을 추가함
또한, 저자들은 모델의 QA 능력을 더욱 강화하기 위해 맥락화된 단일 턴 QA 데이터셋을 통합함
저자들은 또한 두 번째 단계 교육 혼합물에 첫 번째 단계 SFT 데이터셋을 유지하여 모델이 지시어를 따르는 능력을 유지하도록 함
결과적으로, 두 번째 단계 교육 혼합물은 1) 사람이 주석을 단 대화형 QA 데이터셋 또는 합성 대화형 QA 데이터셋, 2) 단일 턴 QA 데이터셋, 그리고 3) 첫 번째 단계의 모든 SFT 데이터셋을 포함함

4. Retrieval for Multi-Turn QA

대화형 QA 작업에서 문서가 너무 길어서 LLM에 직접 입력할 수 없는 경우, 대화형 쿼리를 처리할 수 있는 검색기가 필수적임
이 대화형 검색기는 대화 이력과 현재 쿼리의 결합을 인코딩하고, 문서에서 관련 맥락을 검색한 후, LLM의 입력으로만 사용될 관련 맥락을 검색함
최신 검색기 예를 들어 Dragon은 단일 턴 쿼리에 최적화되어 있어, 다단계 대화형 쿼리의 일반화에는 한계가 있음
그림 2에서는 이 문제를 완화하기 위한 검색기 미세 조정 방법을 보여줌
저자들은 대화형 쿼리와 맥락 쌍을 사용하여 단일 턴 검색기를 추가로 미세 조정하여 대화형 입력을 더 잘 처리할 수 있도록 제안함
대안적인 해결책으로 대화형 쿼리 재작성이 있으며, 이는 현재 질문을 대화 이력에 기반하여 재작성하는 쿼리 재작성기를 사용하는 것임
재작성된 쿼리는 단일 턴 쿼리 검색기에 직접 사용되어 관련 맥락을 검색함
질의 재작성 모델 외에도 추가적인 임베딩 및 검색 비용이 발생하며, GPT-3.5-turbo와 같은 강력한 모델을 사용할 경우 상당한 계산 비용이 발생할 수 있음

4.1.Fine-tuningRetrieverforMulti-turnQA

고품질의 미세 조정 데이터셋을 구축하기 위해 저자들은 HumanAnnotatedConvQA 또는 SyntheticConvQA에서 대화형 쿼리와 맥락 쌍을 활용함
HumanAnnotatedConvQA의 경우, 주석이 달린 대화형 쿼리와 맥락 쌍을 직접 가져와 단일 턴 쿼리 검색기를 추가로 미세 조정함
SyntheticConvQA의 경우, 대화형 QA 데이터셋의 각 문서를 다른 청크로 나누고, 에이전트의 답변과 각 청크 간의 4-gram 회수 점수를 계산함
이후 가장 높은 점수를 가진 청크를 현재 사용자의 질문에 대한 골드 청크로 간주함
최종적으로 구성된 대화형 쿼리와 맥락 쌍을 사용하여 단일 턴 쿼리 검색기를 미세 조정함

4.2.ConversationalQueryRewriting

강력한 대화형 쿼리 재작성 모델을 구축하기 위해 저자들은 GPT-3.5-turbo를 재작성기로 선택함
Galimzhanova 등이 보여준 바와 같이, GPT-3.5-turbo를 사용하여 지시어 튜닝을 진행하면 대화형 쿼리 재작성에 있어 최고의 결과를 얻을 수 있음
GPT-3.5-turbo에 재작성 작업 지시어를 제공하는 것 외에도, 저자들은 재작성 결과의 품질을 향상시키기 위해 몇 가지 few-shot 재작성 예시를 추가로 제공함
자세한 내용은 부록 B.1에서 확인할 수 있음

4.3.Comparisons

저자들은 다섯 개의 데이터셋에서 zero-shot 설정에서 질의 재작성과 미세 조정 방법을 비교함
Dragon과 같은 최신 검색기에서 미세 조정은 질의 재작성과 비교했을 때 평균 top-1 리콜에서 약간 떨어지지만(1.74% 차이), 평균 top-5 리콜에서는 더 나은 결과를 보임(0.54% 향상)
이는 미세 조정 접근법의 효과를 입증함
또한, HumanAnnotatedConvQA와 SyntheticConvQA를 사용한 미세 조정 결과가 비슷하다는 것은 저자들이 수집한 인간 주석 데이터의 높은 품질을 시사함
특히, E5-unsupervised에서는 미세 조정이 질의 재작성보다 훨씬 우수한 성능을 보여, 두 가지 접근법 간의 평균 top-1 및 top-5 리콜 점수에서 15% 이상의 큰 개선을 보임
따라서 고품질 대화형 쿼리 맥락 쌍으로 좋은 단일 턴 검색기를 미세 조정하는 것은 최신 재작성기를 활용하는 것과 동등한 성능을 달성할 수 있지만, 재작성 방법은 자동 회귀 생성 과정과 potenial API 비용으로 인한 추가적인 계산 시간을 필요로 함
저자들은 미세 조정 접근법을 사용하여 모든 QA 모델에 대해 일관되게 최상위 5개의 결과를 검색하여 QA 평가를 수행함

5. Experimental Setup

이 절에서 저자들은 대화형 질문 응답 작업에 대한 실험 설정의 세부 사항을 제시함
다양한 모델 크기에 대한 실험을 수행함
먼저, 1단계 지시어 튜닝을 통한 맥락 강화 능력의 효과를 보여주기 위해, Llama2-SFT-{7B, 13B, 70B}와 비교함
이는 각각 Llama2-7B/13B/70B 기반 모델이 1단계 지시어 튜닝을 거친 후의 것임
두 번째로, Llama2-Chat-{7B, 13B, 70B}와 비교함
Llama2-Chat 모델은 강력한 지시어 따르기와 대화형 QA 능력을 가지고 있음을 보여줌
Llama2 모델 외에도, 3.5조 토큰으로 사전 훈련된 자체 GPT-{8B, 22B} 기반 모델에 대한 실험을 진행함
이 모델들과 그들의 1단계 SFT 기반라인인 GPT-SFT-{8B, 22B}와 비교함
마지막으로, GPT-3.5-turbo-0613(4k)과 GPT-4-0613(8k)와 같은 강력한 OpenAI 모델과 비교함
공정한 비교를 위해, 검색이 필요한 경우 모든 기반라인과 ChatQA 모델에 대해 최상의 검색기에서 얻은 상위-k 검색된 청크를 맥락으로 사용함
모든 기반라인에 대해 가능한 최상의 결과를 얻기 위해 지시어를 세심하게 조정함

6.Results

이 절에서 저자들은 다양한 모델 변형과 OpenAI 모델들과의 비교를 통해 10개 대화형 QA 데이터셋에서의 주요 결과를 제시함
ChatQA 방법은 모델의 대화형 QA 능력을 크게 향상시킴
평균 점수 측면에서 Llama2-Chat 모델은 SFT 모델 대비 약간의 개선을 보여줌
반면, ChatQA 모델들은 SFT 및 Chat 모델과 비교하여 10점 이상의 절대적인 개선을 달성함
예를 들어, ChatQA-13B는 Llama2-13B-SFT와 Llama2-13B-Chat보다 각각 13.17점과 10.52점 개선됨
OpenAI 모델과의 비교에서, 저자들의 최고 모델인 ChatQA-70B는 GPT-3.5-turbo를 3.77점의 평균 점수로 능가하며 GPT-4와는 0.24점의 평균 점수로 비슷한 성능을 보임
특히, 저자들이 제안한 2단계 지시어 튜닝 방법은 GPT-22B-SFT의 성능을 14.70점 향상시켜, 훨씬 작은 모델 크기에도 불구하고 GPT-4에 근접한 성능(53.53 대 53.90)을 보임
이는 제안된 지시어 튜닝 방법의 효율성을 강조함

7. Conclusion

이 논문에서 저자들은 7B에서 70B에 이르는 다양한 모델 크기의 ChatQA 모델들을 구축하였음
10개 대화형 QA 데이터셋에 대한 포괄적인 평가를 통해, 저자들의 최고 모델인 ChatQA-70B가 GPT-3.5-turbo를 현저히 능가하고 GPT-4와 동등한 수준의 성능을 보임을 보여주었으며, 이는 ChatGPT 모델에서 생성된 합성 데이터를 사용하지 않고도 달성되었음
또한, 저자들은 저자들의 수집한 대화형 QA 데이터를 사용하여 단일 턴 쿼리 검색기를 미세 조정하는 것이 상태 최신 LLM 기반 질의 재작성 모델과 비슷한 성능을 내면서도 추가적인 연산 시간과 잠재적인 API 비용을 발생시키지 않음을 보여주었음
더욱이, 저자들은 “답변 불가” 샘플의 소량을 포함시키는 것이 저자들의 모델이 제공된 맥락에서 답변을 찾을 수 없을 때 이를 명시적으로 나타내는 능력을 크게 향상시킬 수 있음을 보여주었음
답변 불가 평가는 저자들의 최고 모델인 ChatQA-70B가 GPT-4와 비교했을 때 약간의 격차가 있지만 매우 강력한 성능을 보임을 강조함

요약

ChatQA is a conversational question answering models achieving GPT-4 level accuracies
It has two-stage instruction tuning method significantly improving zero-shot conversational QA results from large language models
The two-stage instruction tuning method includes supervised fine-tuning on diverse datasets and refines the models’ contextual understanding and response generation in conversational QA by integrating contextualized QA datasets
ChatQA-70B model outperforms GPT-4 on 10 conversational QA datasets

단어정리

1. Introduction

2. Related Work

2.1. Conversational QA

2.2. Retrieval for Multi-Turn QA

2.2.1. CONVERSATIONAL QUERY REWRITING

2.2.2. FINE-TUNING RETRIEVER FOR MULTI-TURN QA

2.3. Instruction Tuning

3. ChatQA

3.1. Stage-1: Supervised Fine-tuning

3.2. Stage-2: Context-Enhanced Instruction Tuning

3.2.1. HUMAN ANNOTATED DATA

3.2.2. SYNTHETIC DATA GENERATION

3.2.3. TRAINING BLENDS

4. Retrieval for Multi-Turn QA

4.1.Fine-tuningRetrieverforMulti-turnQA

4.2.ConversationalQueryRewriting

4.3.Comparisons

5. Experimental Setup

6.Results

7. Conclusion

요약