[2024]Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
한줄 요약:
짧은 요약(Abstract) :
* 기존의 멀티모달 대형 언어 모델(MLLM)의 해킹 연구는 주로 모델 입력에 대한 적대적 예시에 중점을 두었으며, 특히 모델 API의 취약점에 대해서는 덜 주목
* 이러한 연구 격차를 메우기 위해, 저자들은 다음과 같은 작업을 수행:
** 1) GPT-4V에서 시스템 프롬프트 유출 취약점을 발견, 신중하게 설계된 대화를 통해 저자들은 GPT-4V의 내부 시스템 프롬프트를 성공적으로 추출했으며, 이는 MLLM에서 활용 가능한 보안 위험을 나타냄
** 2) 획득한 시스템 프롬프트를 바탕으로, 저자들은 SASP(Self-Adversarial Attack via System Prompt)라는 새로운 MLLM 해킹 방법을 제안, GPT-4를 자체적으로 사용하여 스스로를 공격하는 도구로 활용함으로써, 저자들은 도난당한 시스템 프롬프트를 이용하여 잠재적인 해킹 프롬프트를 찾고자 함. 더 나은 성능을 추구하면서, 저자들은 GPT-4의 분석을 바탕으로 인간의 수정을 추가하였고, 이는 공격 성공률을 98.7%까지 향상시킴
** 3) 해킹 공격에 대항하기 위해 시스템 프롬프트를 수정하는 효과를 평가. 결과적으로 적절하게 설계된 시스템 프롬프트는 해킹 성공률을 크게 감소시킬 수 있음을 보여줌. 전반적으로 우리의 연구는 MLLM 보안 강화에 대한 새로운 통찰을 제공하며, 해킹을 촉진하고 방어하는 데 있어 시스템 프롬프트의 중요한 역할을 입증. 이러한 발견은 MLLM의 보안 강화를 위한 유용한 방법을 제시할 수 있음.
* Useful sentences :
* 단어정리
Methodology
-
- 방법론
저자들의 초기 실험에서 우리는 적절히 수정된 시스템 프롬프트가 효과적인 해킹 프롬프트로 변환될 수 있다는 것을 관찰. 이러한 관찰을 바탕으로, 저자들은 시스템 프롬프트를 해킹 프롬프트로 변환하는 과정을 자동화하는 ‘자기대립적 공격을 통한 시스템 프롬프트 활용(SASP)’이라는 방법론을 개발
- 방법론
- 저자들은 아래 그림 2와 같이 세 단계로 접근법을 설명합니다: (i) 시스템 프롬프트 접근, (ii) 자기대립적 해킹, (iii) 해킹 프롬프트 강화.
3.1 시스템 프롬프트 절도
- 시스템 프롬프트는 모델 반응의 기초적인 맥락을 설정하며, 초기 지시로 작용
- 폐쇄 소스의 대규모 언어 모델에서 시스템 프롬프트는 일반적으로 기밀로 간주되며 공개되지 않음
- GPT-4V에 직접적으로 내부 시스템 프롬프트에 대해 질문할 경우, 모델은 응답을 거부하거나 시스템 프롬프트를 모른다고 주장할 가능성이 높음
-
이러한 반응은 인간의 피드백에서 강화 학습(RLHF)을 사용함으로써 시스템 프롬프트 유출을 방지
- 그러나, 저자들의 조사는 이러한 조치에 취약점이 있음을 발견
- 신중하게 구성된 절도 프롬프트를 통해 GPT-4V의 내부 시스템 프롬프트를 획득할 수 있음
- 지속적인 프롬프트 실험을 통해, 우리는 GPT-4V의 내부 시스템 프롬프트를 추출할 수 있는 가능성 있는 절도 프롬프트를 경험적으로 제안
- 이 텍스트-이미지 혼합 절도 프롬프트는 세 부분으로 구성: 사용자와 GPT-4V 사이의 시뮬레이션된, 미완성 대화, 여기서 사용자는 GPT-4V의 내부 시스템 프롬프트를 요청.
** 대화는 GPT-4V가 시스템 프롬프트로 응답하기 전에 고의적으로 짧게 끊김.
** GPT-4V에게 시뮬레이션된 미완성 대화를 완성하도록 요청.
*** 이것은 모델이 대화를 마무리하도록 강제하며, 내부 시스템 프롬프트의 공개로 이어질 수 있음.
3.2 자기대립적 반복
- 대부분의 기존 연구는 대형 모델을 사용하여 다른 모델을 해킹. 그러나 저자들의 접근법은 대형 모델이 자신을 공격하도록 다룸. 그 이유는 다음과 같음:
** 저자들의 방법론이 도난당한 시스템 프롬프트를 변경하는 데 의존하기 때문에, MLLM은 내부 시스템 프롬프트를 사용할 때 외부 사용자 프롬프트보다 더 쉽게 조작될 수 있음
** 모델은 자신의 안전 정렬을 다른 모델보다 더 잘 이해할 수 있으며, 자체 해킹이 가능
** 저자들은 해킹 프롬프트가 모델의 자체 시스템 프롬프트에서 파생되거나 이를 밀접하게 모방할 경우 모델의 콘텐츠 필터링 메커니즘을 우회할 가능성이 더 높다고 가정
** 시스템 프롬프트를 획득한 후, 우리는 이를 적색 팀 모델에 제공하여 취약점 분석을 요청. 그런 다음, 우리는 적색 팀 모델에게 기반 취약점에 대한 해킹 프롬프트를 생성하도록 요청하고, 대상 모델에서 해킹 프롬프트의 효과를 평가.
** 성공적인 해킹 시도는 적절히 기록.
** 실패한 경우, 대상 모델의 반응은 적색 팀 모델에 제공되며, 이는 피드백에 기반하여 더 강력한 해킹 프롬프트를 생성하도록 요청.
** 새로운 해킹 프롬프트는 다시 평가됩니다. - 이 자기대립적 과정은 성공적인 해킹이 이루어지거나 최대 미리 결정된 반복 횟수에 도달할 때까지 계속됨
- 이 시점에서 시도는 실패로 간주.
- GPT-4V에 대한 이러한 자기대립적 공격 실험에서 우리는 단 두 번의 반복 내에 해킹을 달성할 수 있는 성공률이 약 39%임을 발견
3.3 해킹 프롬프트 강화
- 해킹 성공률을 더 향상시키기 위해, 우리는 적색 팀 모델에 의해 생성된 해킹 프롬프트를 강화하는 네 가지 방법을 제안:
** 접두사 주입, 거부 억제, 가상 시나리오 생성, 감정 호소 (Wei et al., 2023), - 결과적으로 ASR을 99%까지 향상
Results
- 논문에서 제시된 실험 결과는 다음과 같음:
- 시스템 프롬프트 절도 실험:
** 연구팀은 시스템 프롬프트 절도를 통해 GPT-4V의 내부 지침을 획득하는 데 성공하였으며, 이를 이용하여 해킹 프롬프트를 생성하였습니다. 이러한 절도 프롬프트의 사용은 72%의 성공률을 달성했습니다. 이는 시스템 프롬프트가 해킹 공격에 중요한 자원이 될 수 있음을 보여줍니다.
** 자기대립적 해킹 (SASP) 방법론: 연구팀은 자기대립적 방법론을 사용하여 시스템 프롬프트를 기반으로 한 해킹 프롬프트를 생성하고, 이를 통해 모델의 안전 조치를 우회하는 데 초점을 맞췄습니다. 이 방법은 GPT-4V에 대해 59%의 해킹 성공률(ASR)을 달성했습니다. 이는 해당 방법이 상당한 성공률을 가지며 효과적임을 시사합니다.
** 해킹 프롬프트 강화: 해킹 프롬프트의 효과를 더욱 강화하기 위해 연구팀은 접두사 주입, 거부 억제, 가상 시나리오 생성, 감정 호소 등의 방법을 추가하여 해킹 프롬프트를 수정했습니다. 이 강화된 접근 방식은 99%의 높은 해킹 성공률을 달성했습니다. 이는 공격적인 시나리오에서 이러한 추가적인 전략이 모델의 반응을 더욱 쉽게 조작할 수 있음을 보여줍니다.
** 방어 메커니즘의 효과: 연구팀은 또한 시스템 프롬프트를 수정하여 해킹 공격에 대한 방어 가능성을 평가했습니다. 적절하게 설계된 시스템 프롬프트는 해킹 공격의 성공률을 상당히 감소시킬 수 있음을 발견했습니다. 이는 시스템 프롬프트가 단순히 해킹을 용이하게 하는 것이 아니라, 잘 설계되면 모델을 보호하는 데에도 중요한 역할을 할 수 있음을 시사합니다. - 이러한 결과들은 시스템 프롬프트가 멀티모달 대형 언어 모델의 보안에 있어 양면성을 가지고 있으며, 이를 적절히 관리함으로써 모델의 안전성을 강화할 수 있음을 보여줍니다.
요약
- SASP(Self-Adversarial System Prompting) 방법을 통해 높은 공격 성공률을 달성, 여기에대한 프롬프팅 차원의 대비책도 제안