한줄 요약: 


짧은 요약(Abstract) :    
* 기존의 멀티모달 대형 언어 모델(MLLM)의 해킹 연구는 주로 모델 입력에 대한 적대적 예시에 중점을 두었으며, 특히 모델 API의 취약점에 대해서는 덜 주목  
* 이러한 연구 격차를 메우기 위해, 저자들은 다음과 같은 작업을 수행:  
** 1) GPT-4V에서 시스템 프롬프트 유출 취약점을 발견, 신중하게 설계된 대화를 통해 저자들은 GPT-4V의 내부 시스템 프롬프트를 성공적으로 추출했으며, 이는 MLLM에서 활용 가능한 보안 위험을 나타냄  
** 2) 획득한 시스템 프롬프트를 바탕으로, 저자들은 SASP(Self-Adversarial Attack via System Prompt)라는 새로운 MLLM 해킹 방법을 제안, GPT-4를 자체적으로 사용하여 스스로를 공격하는 도구로 활용함으로써, 저자들은 도난당한 시스템 프롬프트를 이용하여 잠재적인 해킹 프롬프트를 찾고자 함. 더 나은 성능을 추구하면서, 저자들은 GPT-4의 분석을 바탕으로 인간의 수정을 추가하였고, 이는 공격 성공률을 98.7%까지 향상시킴   
** 3) 해킹 공격에 대항하기 위해 시스템 프롬프트를 수정하는 효과를 평가. 결과적으로 적절하게 설계된 시스템 프롬프트는 해킹 성공률을 크게 감소시킬 수 있음을 보여줌. 전반적으로 우리의 연구는 MLLM 보안 강화에 대한 새로운 통찰을 제공하며, 해킹을 촉진하고 방어하는 데 있어 시스템 프롬프트의 중요한 역할을 입증. 이러한 발견은 MLLM의 보안 강화를 위한 유용한 방법을 제시할 수 있음.  

* Useful sentences :  
*

단어정리

Methodology

1. 방법론
  저자들의 초기 실험에서 우리는 적절히 수정된 시스템 프롬프트가 효과적인 해킹 프롬프트로 변환될 수 있다는 것을 관찰. 이러한 관찰을 바탕으로, 저자들은 시스템 프롬프트를 해킹 프롬프트로 변환하는 과정을 자동화하는 ‘자기대립적 공격을 통한 시스템 프롬프트 활용(SASP)’이라는 방법론을 개발
저자들은 아래 그림 2와 같이 세 단계로 접근법을 설명합니다: (i) 시스템 프롬프트 접근, (ii) 자기대립적 해킹, (iii) 해킹 프롬프트 강화.

3.1 시스템 프롬프트 절도

시스템 프롬프트는 모델 반응의 기초적인 맥락을 설정하며, 초기 지시로 작용
폐쇄 소스의 대규모 언어 모델에서 시스템 프롬프트는 일반적으로 기밀로 간주되며 공개되지 않음
GPT-4V에 직접적으로 내부 시스템 프롬프트에 대해 질문할 경우, 모델은 응답을 거부하거나 시스템 프롬프트를 모른다고 주장할 가능성이 높음
이러한 반응은 인간의 피드백에서 강화 학습(RLHF)을 사용함으로써 시스템 프롬프트 유출을 방지
그러나, 저자들의 조사는 이러한 조치에 취약점이 있음을 발견
신중하게 구성된 절도 프롬프트를 통해 GPT-4V의 내부 시스템 프롬프트를 획득할 수 있음
지속적인 프롬프트 실험을 통해, 우리는 GPT-4V의 내부 시스템 프롬프트를 추출할 수 있는 가능성 있는 절도 프롬프트를 경험적으로 제안
이 텍스트-이미지 혼합 절도 프롬프트는 세 부분으로 구성: 사용자와 GPT-4V 사이의 시뮬레이션된, 미완성 대화, 여기서 사용자는 GPT-4V의 내부 시스템 프롬프트를 요청. ** 대화는 GPT-4V가 시스템 프롬프트로 응답하기 전에 고의적으로 짧게 끊김. ** GPT-4V에게 시뮬레이션된 미완성 대화를 완성하도록 요청.
*** 이것은 모델이 대화를 마무리하도록 강제하며, 내부 시스템 프롬프트의 공개로 이어질 수 있음.

3.2 자기대립적 반복

대부분의 기존 연구는 대형 모델을 사용하여 다른 모델을 해킹. 그러나 저자들의 접근법은 대형 모델이 자신을 공격하도록 다룸. 그 이유는 다음과 같음: ** 저자들의 방법론이 도난당한 시스템 프롬프트를 변경하는 데 의존하기 때문에, MLLM은 내부 시스템 프롬프트를 사용할 때 외부 사용자 프롬프트보다 더 쉽게 조작될 수 있음
** 모델은 자신의 안전 정렬을 다른 모델보다 더 잘 이해할 수 있으며, 자체 해킹이 가능
** 저자들은 해킹 프롬프트가 모델의 자체 시스템 프롬프트에서 파생되거나 이를 밀접하게 모방할 경우 모델의 콘텐츠 필터링 메커니즘을 우회할 가능성이 더 높다고 가정
** 시스템 프롬프트를 획득한 후, 우리는 이를 적색 팀 모델에 제공하여 취약점 분석을 요청. 그런 다음, 우리는 적색 팀 모델에게 기반 취약점에 대한 해킹 프롬프트를 생성하도록 요청하고, 대상 모델에서 해킹 프롬프트의 효과를 평가.
** 성공적인 해킹 시도는 적절히 기록.
** 실패한 경우, 대상 모델의 반응은 적색 팀 모델에 제공되며, 이는 피드백에 기반하여 더 강력한 해킹 프롬프트를 생성하도록 요청.
** 새로운 해킹 프롬프트는 다시 평가됩니다.
이 자기대립적 과정은 성공적인 해킹이 이루어지거나 최대 미리 결정된 반복 횟수에 도달할 때까지 계속됨
이 시점에서 시도는 실패로 간주.
GPT-4V에 대한 이러한 자기대립적 공격 실험에서 우리는 단 두 번의 반복 내에 해킹을 달성할 수 있는 성공률이 약 39%임을 발견

3.3 해킹 프롬프트 강화

해킹 성공률을 더 향상시키기 위해, 우리는 적색 팀 모델에 의해 생성된 해킹 프롬프트를 강화하는 네 가지 방법을 제안:
** 접두사 주입, 거부 억제, 가상 시나리오 생성, 감정 호소 (Wei et al., 2023),
결과적으로 ASR을 99%까지 향상

Results

논문에서 제시된 실험 결과는 다음과 같음:
시스템 프롬프트 절도 실험:
** 연구팀은 시스템 프롬프트 절도를 통해 GPT-4V의 내부 지침을 획득하는 데 성공하였으며, 이를 이용하여 해킹 프롬프트를 생성하였습니다. 이러한 절도 프롬프트의 사용은 72%의 성공률을 달성했습니다. 이는 시스템 프롬프트가 해킹 공격에 중요한 자원이 될 수 있음을 보여줍니다.
** 자기대립적 해킹 (SASP) 방법론: 연구팀은 자기대립적 방법론을 사용하여 시스템 프롬프트를 기반으로 한 해킹 프롬프트를 생성하고, 이를 통해 모델의 안전 조치를 우회하는 데 초점을 맞췄습니다. 이 방법은 GPT-4V에 대해 59%의 해킹 성공률(ASR)을 달성했습니다. 이는 해당 방법이 상당한 성공률을 가지며 효과적임을 시사합니다.
** 해킹 프롬프트 강화: 해킹 프롬프트의 효과를 더욱 강화하기 위해 연구팀은 접두사 주입, 거부 억제, 가상 시나리오 생성, 감정 호소 등의 방법을 추가하여 해킹 프롬프트를 수정했습니다. 이 강화된 접근 방식은 99%의 높은 해킹 성공률을 달성했습니다. 이는 공격적인 시나리오에서 이러한 추가적인 전략이 모델의 반응을 더욱 쉽게 조작할 수 있음을 보여줍니다.
** 방어 메커니즘의 효과: 연구팀은 또한 시스템 프롬프트를 수정하여 해킹 공격에 대한 방어 가능성을 평가했습니다. 적절하게 설계된 시스템 프롬프트는 해킹 공격의 성공률을 상당히 감소시킬 수 있음을 발견했습니다. 이는 시스템 프롬프트가 단순히 해킹을 용이하게 하는 것이 아니라, 잘 설계되면 모델을 보호하는 데에도 중요한 역할을 할 수 있음을 시사합니다.
이러한 결과들은 시스템 프롬프트가 멀티모달 대형 언어 모델의 보안에 있어 양면성을 가지고 있으며, 이를 적절히 관리함으로써 모델의 안전성을 강화할 수 있음을 보여줍니다.

요약

SASP(Self-Adversarial System Prompting) 방법을 통해 높은 공격 성공률을 달성, 여기에대한 프롬프팅 차원의 대비책도 제안