한줄 요약: 

짧은 요약(Abstract) :    

지난 수십 년 동안, 심층 신경망(DNN)은 이미지 분류, 컴퓨터 비전(CV) 분야와 자연 언어 처리(NLP) 분야의 텍스트 인식을 포함한 다양한 응용 프로그램에서 큰 성공을 거두었다

그러나 최근 연구들은 이미지 도메인에서 주로 DNN이 적대적 예제에 대해 매우 취약하다는 것을 보여주었다

예를 들어, Goodfellow 등은 판다 이미지에 거의 영(0)에 가까운 노이즈를 추가하면 GoogLeNet이 매우 높은 확신(99.3%)으로 잘못된 라벨(긴팔원숭이)을 부여할 수 있다는 것을 보여주었다

이 현상은 DNN의 보안 구현에 대한 큰 우려를 제기하고 2014년 이후 CV 커뮤니티에서 많은 관심을 끌었다

문헌에서는 DNN을 공격하기 위한 적대적 예제를 생성하는 다양한 접근 방법(공격 분기라고 함)과 이러한 잠재적 공격을 방어하기 위한 해당 메커니즘(방어 분기라고 함)이 제안되었다

이 장에서는 CV 도메인과 NLP 도메인에서 고품질의 적대적 예제를 만들기 위한 적대적 공격 방향에 초점을 맞춘다
Useful sentences :  
*

단어정리

6.1 Adversarial Attacks on Images

적대적 공격은 DNN의 속성을 조사하고 보안 및 무결성 응용 프로그램을 촉진하는 효과적인 전략임

이미지에 대한 적대적 공격은 깨끗한 이미지에 미묘한 픽셀 변화를 추가하여 잘 훈련된 딥러닝 모델이 잘못된 예측을 하도록 하는 적대적 예제를 생성하는 것을 목표로 함

이미지 분류에서 Szegedy 등은 DNN의 입력-출력 매핑이 극도로 불연속적이라는 흥미로운 약점을 처음으로 밝혔는데, 인간에게 인지할 수 없는 변화만으로도 신경망이 잘못 분류하게 할 수 있음을 의미함

더욱이, 동일한 변화가 서로 다른 네트워크 아키텍처를 가진 여러 DNN을 속일 수 있음

이 결과는 현재의 DNN이 적대적 공격에 대해 매우 불안정하다는 것을 시사하며 CV 커뮤니티에서 큰 관심을 불러일으킴

이미지 적대적 공격을 위한 여러 접근 방법이 제안되었으며, 이는 기울기 기반 공격, 점수 기반 공격, 결정 기반 공격 및 변환 기반 공격 등을 포함함

이러한 공격 전략의 대부분은 기존 데이터셋을 사용하여 각각의 단일 이미지에 대한 변화를 계산함

단일 이미지 공격에 비해 동일한 클래스에 속하는 이미지 그룹에 대한 보편적 변화를 만드는 것이 더 도전적임

게다가, 대부분의 기존 공격 메커니즘은 실제 세계 환경이 아닌 공개 데이터셋에서 평가되었는데, 후자의 설정이 더 복잡함

이러한 맥락에서, 저자들은 교통 표지판 공격을 위한 자연스러운 변화를 생성하는 새로운 이미지 비특정 공격 모듈을 소개함

이 공격 모듈은 실제 세계 구현에 적합한 도로 표지판 그룹에 대한 보편적 변화를 생성할 수 있음

공개 데이터셋과 실제 세계 사진 모두에서의 실험 결과는 방법이 공격 성공률과 변화 비용 측면에서 기준을 뛰어넘는다는 것을 보여줌

소프트 주의 모듈을 사용함으로써, 인간 운전자에게 나무 그림자처럼 보이는 더 자연스러운 변화를 생성함

이 섹션에서는 이미지에 대한 네 가지 유형의 적대적 공격 방법, 즉 기울기 기반 공격, 점수 기반 공격, 결정 기반 공격 및 변환 기반 공격을 검토함

6.1.1 Gradient-Based Attack

기울기 기반 공격은 입력 데이터에 대해 손실 함수의 기울기에 따라 가장 민감한 변화 방향을 찾는 것을 목표로 함

Goodfellow 등은 유명한 빠른 기울기 부호 방법(FGSM)을 제안했는데, 이는 손실 함수의 기울기를 활용하여 각 픽셀의 변화 방향(증가 또는 감소)을 결정함

그들은 신경망의 취약성이 비선형성이나 과적합이 아닌 선형성 때문이라고 주장함

효율성을 달성하기 위해 FGSM은 단일 기울기 단계를 통해 변화를 학습하도록 설계되었음

이 절차는 적대적 훈련을 가속화하지만, 최소한의 변화를 찾지 못하고 높은 변화 비용을 초래하는 경우가 많음

Kurakin 등은 FGSM을 개선하여 기울기 단계를 여러 번 반복하고 각 반복에서 더 작은 단계 크기를 사용하는 반복 FGSM(I-FGSM)을 제안함

이 반복적인 I-FGSM은 상대적으로 더 작은 변화로 분류기를 더 높은 비율로 오도함

Kurakin 등은 또한 제안된 I-FGSM이 물리적 세계 시스템에서도 대상 분류기를 오도할 수 있음을 보여줌

구체적으로, 그들은 생성된 적대적 예제를 종이에 인쇄하고 휴대폰 카메라로 사진을 찍었음

보고된 결과는 이러한 사진 중 상당수가 ImageNet Inception 분류기에 의해 잘못 분류됨을 자세히 설명함

DeepFool 방법은 깨끗한 입력과 가장 가까운 분류 하이퍼플레인 간의 거리를 반복적으로 탐색하여 변화 강도를 더욱 줄임

그러나 I-FGSM과 DeepFool의 탐욕적 최적화 전략은 쉽게 지역 최적에 이를 수 있음

Dong 등은 동안 모멘텀을 기억하는 속도 벡터를 사용하여 반복 동안 모든 이전 기울기를 기억하는 모멘텀 I-FGSM(MI-FGSM)을 설계함으로써 부진한 지역 최대값에서 벗어날 수 있음

화이트박스 공격 외에도 Dong 등은 적대적 예제의 전이성을 향상시키기 위해 앙상블 모델을 공격하는 대신 단일 모델만 공격하는 모멘텀 반복 방법을 연구함

전이성이란 서로 다른 기계 학습 모델이 데이터 포인트 주변에서 유사한 결정 경계를 학습한다는 사실에 기반함

최근 Xiang 등은 회색박스 공격 체계에 FGSM을 내장하여 피해 네트워크 구조에 접근할 수 없지만 사이드 채널 공격(SCA)을 통해 유도될 수 있음을 보여줌

구체적으로, SCA는 시간/전력 소비와 전자기 방사와 같은 하드웨어 사이드 채널 정보를 통해 내부 지식을 파생하는 기술임

SCA는 정확한 매

개변수 가중치나 손실 함수를 밝힐 수는 없지만 기본 네트워크 구조를 유도할 수 있음

따라서, SCA는 네트워크 구조가 일반적으로 알려지지 않았기 때문에 화이트박스 공격보다 실용적이지만, 정보가 전혀 없는 블랙박스 모델보다 우월함

6.1.2 Score-Based Attack

점수 기반 공격은 모델 아키텍처와 모델 가중치에 접근하지 않고 출력 점수(예: 예측 확률)를 사용하여 적대적 변화를 구성함

Narodytska 등은 탐욕적인 로컬 서치 방법을 적용하여 몇 개(심지어 단일 픽셀)의 픽셀을 찾아 변화시켜 적대적 텍스트를 생성함

이들은 “탑-k 미스클래시피케이션” 기준을 채택함, 이는 정확한 라벨을 탑-k 점수에서 밀어낼 때까지 탐색 절차를 중단한다는 것을 의미함

단일 픽셀 공격의 한 가지 단점은 변화된 픽셀이 예상 범위를 벗어날 수 있다는 것임

Hayes와 Danezis는 공격자 신경망을 훈련하여 변화를 학습한 다음 다른 블랙박스 타겟 네트워크를 공격하는 데 사용함

공격자 모델은 원본 입력 이미지와 출력 적대 이미지 사이의 차이를 최소화하는 것을 목표로 훈련됨, 여기서 출력 이미지는 타겟 모델을 오도할 수 있음

이를 위해, 그들은 재구성 손실과 미스클래시피케이션 손실을 결합한 손실 함수를 정의함

재구성 손실은 공격자 모델의 입력과 출력 사이의 거리를 측정하여 적대적 출력이 깨끗한 입력과 유사하게 보이도록 보장함

미스클래시피케이션 손실은 공격 유형(목표 지향적 또는 비목표 지향적)에 따라 정의되어 공격 성공률을 높임

Ilyas 등은 전형적인 블랙박스 설정보다 더 현실적인 세 가지 시나리오를 고려함, 여기에는 (1) 쿼리 제한 설정, (2) 부분 정보 설정, 그리고 (3) 라벨 전용 설정이 포함됨

구체적으로, 쿼리 제한 설정은 공격자가 분류기에 대한 쿼리 수가 제한되어 있음을 의미함

부분 정보 설정은 적대자가 탑-k 확률만 알고 있음을 나타내고, 라벨 전용 설정은 공격자가 탑-k 라벨에만 접근할 수 있지만 그 확률은 알지 못함을 의미함

쿼리 제한 설정을 해결하기 위해, 저자들은 자연 진화 전략(NES)을 사용하여 기울기를 추정하고 적대적 예제를 생성함

라벨 전용 설정을 해결하기 위해, 그들은 몬테 카를로 근사를 추가로 정의하여 소프트맥스 확률의 프록시 점수를 추정함

Zhao 등은 제로 오더 자연 기울기 하강(ZO-NGD) 알고리즘을 제안하여 피셔 정보 행렬(FIM)과 자연 기울기를 곱하여 확률 모델을 최적화함

그런 다음 FIM을 이차 자연 기울기 하강(NGD)과 결합하여 높은 쿼리

효율성을 달성함

6.1.3 Decision-Based Attack

결정 기반 공격은 모델의 분류 결정(즉, 탑-1 클래스 라벨)만 필요로 하고 모델 기울기나 출력 점수의 필요성을 없앰

전형적인 작업으로는 경계 공격이 있는데, 이는 목표 클래스에서 선택된 적대적 포인트, 즉 이미지로 시작함

그런 다음 적대적 상태를 유지하면서 결정 경계를 따라 무작위 걸음을 실행하여 노이즈를 줄임

이 방법은 L2 거리 측면에서 최소한의 변화를 추가하며, 그라디언트 기반 방법보다 더 적은 하이퍼파라미터 조정이 필요함

그러나 최종 적대적 예제를 제공하기까지 많은 반복이 필요해 수렴이 느림

경계 공격과 달리 L2 노름 측면에서 변화를 최소화하는 포인트와이즈 공격은 L0 노름을 최소화하여 노이즈를 줄임

이는 소금-후추 노이즈나 가우시안 노이즈로 시작 지점을 초기화한 다음 이미지가 잘못 분류될 때까지 각 변화된 픽셀을 깨끗한 이미지로 재설정함

이 과정은 더 이상 픽셀을 재설정할 수 없을 때까지 계속됨

Chen과 Jordan은 경계 공격을 발전시켜 이진 탐색을 사용하여 결정 경계에서 기울기 방향의 무편향 추정치를 개발함

그들은 샘플이 정확히 경계에 있지 않을 때 추정 오류를 분석하고 이 방법을 Boundary Attack++라고 명명함

Boundary Attack++는 모델 쿼리 수를 줄이는 것뿐만 아니라 L2와 L∞ 거리 사이를 전환할 수 있도록 두 가지 클립 연산자를 설계함

Chen 등은 결정 경계의 이진 정보를 사용하여 기울기 방향을 추정하고 HopSkipJumpAttack(HSJA)을 제시함

이 방법은 L2 또는 L∞ 거리를 최소화하여 목표 지향적 또는 비목표 지향적 공격을 위해 설계되었으며, 각 반복은 기울기 방향 추정, 기하학적 스텝 사이즈 검색, 그리고 이진 방법에 의한 경계 검색으로 구성됨

이 방법은 인기 있는 방어 메커니즘을 공격하여 경쟁적인 결과를 달성했으나 쿼리 효율성은 향상될 필요가 있음

Li 등은 경계 기반 공격에 대한 큰 쿼리 반복 수는 이미지와 같은 고차원 입력 때문임을 지적함

그러므로 공간 하위 공간, 주파수 하위 공간 및 주요 구성 요소 하위 공간을 포함한 세 가지 하위 공간 최적화 방법을 탐색함

특히, 공간 하위 공간은 선형 보간을 활용하여 이미지를 저차원 공간으로 축소함

두 번째 주파수 하위 공간은 이산 코사인 변환(DCT)을 통해 얻어지며, 세 번째는 주

요 구성 요소 분석(PCA)을 사용하여 주요 구성 요소를 선택함

6.1.4 Transformation-Based Attack

변환 기반 공격은 픽셀의 공간 위치를 이동시켜 적대적 이미지를 만드는 방식으로, 픽셀 값을 직접 수정하는 대신 수행됨

예를 들어, Xiao 등은 공간적으로 변형된 적대적(stAdv) 방법을 제안했는데, 이는 Lp-노름이 아닌 지역 기하학적 왜곡을 통해 변화의 크기를 측정함

이는 이미지에 대한 공간 변형이 종종 큰 Lp 손실로 이어지지만, 이러한 변화는 인간의 시각에는 거의 인지할 수 없으며 방어하기 어려움

각 픽셀의 공간 위치는 네 가지 픽셀 이웃, 즉 좌상, 우상, 좌하, 우하로 이동될 수 있음

stAdv는 지역 왜곡을 최소화하는 목적 함수를 구성하고 L-BFGS 최적화기를 사용하여 이 최소화 문제를 해결함

Engstrom 등은 단순히 자연 이미지를 회전하거나 이동하는 것만으로도 깊은 시각 모델을 속일 수 있음을 발견함

동시에 변환과 회전을 수행하려면, 저자는 두 개의 변환 매개변수와 회전을 제어하는 하나의 각도 매개변수를 정의함

그런 다음 이 매개변수들을 최적화하기 위해 첫 번째 순서 방법, 격자 검색, 최악의-k 선택 등 세 가지 다른 방법을 설계함

첫 번째 순서 방법은 손실 함수의 기울기를 계산하기 위해 분류기에 대한 전체 지식이 필요하며, 두 번째와 세 번째 전략은 블랙박스 설정에서 수행될 수 있음

Wang 등은 이미지-이미지(Im2Im) 변환 작업에서 이미지의 공간 변형이 미치는 영향을 조사했는데, 이는 순수한 분류 문제보다 더 복잡함

그들은 입력 도메인에서의 기하학적 이미지 변형(즉, 변환, 회전, 스케일)이 대상 도메인의 Im2Im 프레임워크의 잘못된 색상 맵을 유발할 수 있음을 밝혀냄

이전 작업들이 공간 변형에만 의존하는 것과 달리, Chen 등은 선형 공간 변형(즉, 아핀 변형)과 색상 변형을 통합하고 두 단계 조합 공격을 제안함

아핀 변형 외에도, 저자들은 조명의 변화로 색상 변형을 정의함, 왜냐하면 이러한 조정은 이미지의 의미 정보를 변경하지 않기 때문임

또한, Lp-노름이 변환 공격에서 적대적 품질을 측정하는 데 부적합하기 때문에, 저자들은 구조적 유사성 지수(SSI)를 사용하여 지각적 품질을 측정함

이러한 적대 모델은 소셜 사용자의 상호 작용을 보호하기 위해 잠재적으로 적용될 수 있음

6.2 Adversarial Attacks on Texts

적대적 이미지 공격에 비해 텍스트 인식에서 딥러닝 모델의 취약성은 크게 과소평가되었음

텍스트 적대적 샘플을 만드는 데 몇 가지 어려움이 있음

첫째, 텍스트 공격 시스템의 출력은 어휘적 정확성, 구문적 정확성 및 의미적 유사성과 같은 다양한 자연스러운 속성을 충족해야 함

이러한 속성은 적대적 공격 후에도 인간의 예측이 변하지 않도록 보장함

둘째, 텍스트 시퀀스 내의 단어들은 이미지 공간의 연속적인 픽셀 값과 달리 이산 토큰임

따라서, 각 단어에 대해 모델 기울기를 직접 계산하는 것은 불가능함

직접적인 우회 방법은 문장을 연속적인 단어 임베딩 공간으로 매핑하는 것이지만, 이는 임베딩 공간에서 가까운 단어들이 구문적으로 일관성이 있음을 보장할 수 없음

셋째, 많은 픽셀에 작은 변화를 주더라도 인간의 인식에서 여전히 의미가 있는 이미지를 생성할 수 있음

그러나 텍스트 문서에서의 아주 작은 변화, 심지어 단일 단어의 변화조차도 문장을 의미 없게 만들 수 있음

텍스트 공격의 첫 시도는 2016년으로 거슬러 올라가며, 당시 Papernot 등은 순차적 데이터 처리에서 순환 신경망(RNN)의 견고성을 조사함

이 연구에서 Papernot 등은 감정 분석 작업을 위한 71단어 영화 리뷰에서 평균적으로 9개의 단어를 변경함으로써 RNN을 100% 속일 수 있음을 증명함

2016년 이후, 여러 연구 라인들이 적대적 텍스트 예제를 생성하기 위해 제안되었으며, 여기에는 문자 수준 공격, 단어 수준 공격, 문장 수준 공격이 포함됨

표 6.2는 다양한 공격 전략으로 생성된 세 가지 성공적인 적대적 텍스트 예제를 자세히 설명함

구체적으로, 문자 수준 공격은 문자를 삭제, 삽입, 또는 교환하여 적대적 텍스트를 생성함

그러나 이러한 문자 수준의 수정은 철자가 틀린 단어로 이어지며, 이는 맞춤법 검사기에 의해 쉽게 탐지되고 제거될 수 있음

문장 수준 공격은 원본 텍스트 앞이나 뒤에 적대적 문장을 연결하여 딥 아키텍처 모델을 혼란시킴

그러나 이러한 방법들은 종종 의미가 크게 변경되고 인간에게 이해할 수 없는 문장을 생성함

이러한 단점을 해결하기 위해, 최근의 연구들은 원본 단어를 신중하게 선택된 다른 단어로 대체하는 단어 수준 공격에 초점을 맞춤

그러나 기존의 단어 대체 전략은 높은 공격

성공률과 낮은 대체율을 달성하기에는 여전히 완벽하지 않음

6.2.1 Character-Level Attack

문자 수준 공격은 문자를 삭제, 삽입 또는 교체하여 적대적 텍스트를 생성함

Belinkov와 Bisk는 네 가지 유형의 합성 노이즈를 고안함: (1) 첫 번째와 마지막 글자를 제외하고 인접한 두 글자를 바꿈(예: noise → nosie), (2) 첫 번째와 마지막 글자를 제외하고 단어 안의 모든 글자의 순서를 무작위화함(예: noise → nisoe), (3) 첫 번째와 마지막 글자를 포함하여 단어의 모든 글자를 완전히 무작위화함(예: noise → iones), 그리고 (4) 단어의 한 글자를 인접 키의 글자로 무작위로 대체함(예: noise → noide)

이 전략들은 신경 기계 번역(NMT) 모델을 상당한 정도로 오도할 수 있음

그러나 이들은 가능한 한 많은 입력 문장의 단어를 수정함으로써 높은 변화 손실을 초래함

예를 들어, 모든 길이가 4 이상인 단어에 대해 두 글자의 ‘교환’이 적용되지만, 이는 첫 번째와 마지막 글자를 변경하지 않기 때문임

변화 정도를 줄이기 위해 Ebrahimi 등은 HotFlip을 제안함, 이는 각 문자를 원-핫 벡터로 표현하고 두 문자 조작, 즉 문자 삽입 및 문자 삭제를 제안함

구체적으로, HotFlip은 원-핫 벡터 표현에 대한 방향 미분을 계산하여 최적의 문자 변경(즉, 원자적 뒤집기 작업)을 추정함

그런 다음 빔 탐색을 사용하여 함께 잘 수행될 수 있는 조작 시퀀스를 찾음

또한, HotFlip은 각 훈련 샘플에 대해 문자 뒤집기의 상한선을 20%로 설정하여 조작을 제한함

편집 거리를 최소화하고 변화 정도를 줄이기 위해 Gao 등은 DeepWordBug를 설계하여 중요한 단어에만 텍스트 변화를 적용함

구체적으로, 단어 중요도 점수는 단어를 하나씩 직접 제거하고 예측 변경을 비교함으로써 평가됨

DeepWordBug는 네 가지 문자 조작을 수정함: (1) 단어의 한 글자를 무작위 글자로 교체, (2) 단어에서 무작위 문자 삭제, (3) 단어에 무작위 문자 삽입, (4) 단어의 두 인접한 글자 교환

편집 거리는 레벤슈타인 거리로 정의되므로 (1), (2), (3)의 경우 편집 거리는 1이지만 (4)의 경우는 2임

Gil 등은 화이트박스 설정에서 설계된 HotFlip 방법이 효율적인 증류를 통해 블랙박스 공격을 수행하는 데 적용될 수 있음을 보여줌

이 화이트-투-블랙 절차는 세 단계를 포함함: 첫째, 소스 텍스트 분류 모델과 타겟 블랙박스 모델을 훈

련함, 둘째, 화이트박스에서 HotFlip을 사용하여 소스 모델을 공격하여 적대적 예제를 만듦, 셋째, 새로운 적대적 예제를 생성하여 블랙박스 타겟 모델을 공격하기 위해 공격자를 훈련함

공격자는 신중하게 설계된 교차 엔트로피 손실 함수를 사용하여 (입력, 출력) 쌍으로 훈련되며, 여기서 입력은 원본 입력 단어이고 출력은 두 번째 단계에서 수행된 수정임

Eger 등은 VIPER 알고리즘을 제안하여 문자를 시각적으로 유사한 기호로 대체함, 이는 인터넷 속어(예: n00b)와 독성 댓글(예: !d10t)에서 흔히 사용됨

시각 공격의 장점에는 문자 수준을 넘어서는 언어학적 지식이 필요하지 않고 인간의 인식과 이해에 덜 해를 끼친다는 것이 포함됨

시각적으로 유사한 기호 후보는 이미지 기반 문자 임베딩 공간(ICSE), 설명 기반 문자 임베딩 공간(DCES), 그리고 쉬운 문자 임베딩 공간(ECSE)을 포함한 세 가지 문자 임베딩 공간에서 선택됨

ECES는 문자 아래나 위에 기호를 추가하여 대상 모델에 최대의 영향을 미치지만, 이러한 변화는 수동 선택이 필요함

그러나 문자 수준 공격의 공통적인 단점은 어휘 제약을 위반하고 철자가 틀린 단어를 생성한다는 것이며, 이는 분류기 앞에 설치된 맞춤법 검사기에 의해 쉽게 감지되고 제거될 수 있음

6.2.2 Sentence-Level Attack

문장 수준 공격은 깨끗한 입력 텍스트에 적대적 문장을 연결하여 딥 아키텍처 모델을 혼란시킴

예를 들어, Jia와 Liang은 독해 모델을 혼란시키기 위해 단락 끝에 호환 가능한 문장을 추가함

적대적 문장은 변경된 질문과 가짜 답변을 결합하여 원본 질문과 유사하게 보이도록 만들어, 독해 모델이 잘못된 답변 위치로 오도되게 함

그러나 이 전략은 많은 인간의 개입을 필요로 하며 완전히 자동화될 수 없음(예: 적대적 문장이 선언적 형태로 유지되도록 하기 위해 약 50개의 수동 정의 규칙에 의존함)

Wallace 등은 특정 목표 예측을 유발할 때 동일한 데이터셋의 모든 입력에 연결될 수 있는 입력 비의존적 시퀀스, 즉 범용 적대적 트리거를 찾음

범용 시퀀스는 무작위로 초기화되고 토큰 교체 기울기를 HotFlip처럼 사용하여 목표 예측 가능성을 증가시키는 방식으로 반복적으로 업데이트됨

그러나 이 방법은 인간의 인식에 의미 있는 출력을 보장하지 못하고 종종 비정규 텍스트를 생성함(예: “zoning tapping fiennes”)

최근에, Song 등은 NUTS를 제안하여 유창한 트리거를 만들어내는데, 이는 세미나 공격적으로 정규화된 오토인코더(ARAE)를 사용하여 트리거를 생성하고 그라디언트 기반 검색을 채택하여 분류 시스템의 손실 함수를 최대화함

최적화하는 동안 다수의 독립적인 노이즈 벡터(실험에서는 256개의 벡터 사용)가 초기에 초기화됨

그런 다음 이러한 최적화된 후보 트리거가 분류기 정확도와 자연스러움 모두에 따라 재순위가 매겨짐

Wang 등은 입력 문장의 제어 가능한 속성을 변경하여 적대적 문장을 생성하는 CATGen 모델을 제안함

구체적으로, CATGen에는 텍스트 생성을 위한 인코더-디코더 프레임워크와 속성 분류기가 포함됨

인코더와 디코더는 모두 RNN으로 입력 문장을 복사하는 것을 학습함

속성 분류기는 보조 데이터셋에서 훈련되며 작업 라벨(예: 긍정적, 부정적)과 관련이 없는 제어 가능한 속성(예: 카테고리, 성별, 도메인)을 학습하는 것을 목표로 함

예를 들어, 속성을 “주방”에서 “전화”로 변경함으로써 입력 문장 “오랫동안 내 EDC용으로 사용한 놀라운 나이프, 같은 오래된 나이프에 질려서 바꿨어요(긍정적)”는 “오랫동안 내 iPhone5용으로 사용한 놀라운 케이스, 같은 오래된 종류에 질려서 문제가 생겼어

요(부정적)”로 바뀜

문장 수준 공격은 자연어 기계 번역(NMT)과 질문 응답(QA)과 같은 다른 NLP 작업에서도 나타남

그러나 이러한 방법들은 텍스트 문서를 문장 수준에서 조작하기 때문에 일반적으로 높은 변화 비용과 중대한 의미 변경을 초래함

6.2.3 Word-Level Attack

단어 수준 공격은 원본 입력 단어를 신중하게 선택된 단어로 교체함으로써 수행됨

이 과정에서 가장 중요한 문제는 적절한 후보 단어를 선택하는 방법과 단어 대체 순서를 결정하는 방법임

처음에, Papernot 등은 단어들을 128차원 임베딩 공간으로 투영하고 입력-출력 상호 작용을 평가하기 위해 야코비안 행렬을 활용함

그러나 임베딩 공간에서의 작은 변화가 완전히 관련 없는 단어로 이어질 수 있으므로, 임베딩 공간에서 가까운 단어들이 의미적으로 유사하다는 것을 단단히 보장할 수 없음

따라서, 후속 연구들은 GloVe 임베딩 공간, 기존의 시소러스(예: WordNet과 HowNet), 또는 BERT 마스크 언어 모델(MLM)에서 동의어를 검색하는 동의어 대체 전략에 중점을 둠

GloVe를 사용하여, Alzantot 등은 자연 선택을 모방하는 인구 기반 유전 알고리즘(GA)을 설계함

최적화 과정은 다양한 단어 수정 세트로 구성된 초기 세대에서 시작함

각 후속 세대에서, 교차와 돌연변이가 진화와 후보 최적화를 위해 사용됨

특히, 교차는 한 개 이상의 부모 솔루션에서 하나의 자식 솔루션을 생산하고, 돌연변이는 인구 구성원의 다양성을 증가시키기 위해 설계됨

Jin 등은 GloVe 임베딩 공간에서 대체 후보를 수집하는 TextFooler를 제시함

GA와 달리, TextFooler는 각 입력 단어를 반복적으로 삭제함으로써 단어 중요도 점수(WIS)를 계산하여 단어 대체 순서를 결정함

구체적으로, WIS는 올바른 라벨 확률의 감소와 잘못된 라벨 점수의 증가로 정의됨

그러나 GloVe 임베딩은 반의어를 동의어와 구별하지 못함

예를 들어, GloVe 공간에서 expensive의 가장 가까운 이웃은 {pricey, cheaper, costly}인데, 여기서 cheaper는 그 반의어임

따라서 GloVe 기반 알고리즘은 의미 제약을 보장하기 위해 적대적 벡터를 사후 처리하는 반대 맞춤 방법을 사용해야 함

WordNet과 같은 잘 구성된 언어학적 시소러스를 사용하는 것은 더 직관적임

WordNet은 동의어 집합인 신세트로 그룹화된 영어의 큰 어휘 데이터베이스이며, HowNet은 단어를 그들의 세멘으로 주석 처리함

Ren 등은 WordNet 신세트에서 각 입력 단어의 동의어를 찾고 확률 가중 단어 중요도(PWWS)를 계산하여 대체 우선 순위를 결정함

그런 다음 PWWS 내림차순으로 각 단어를 최고의 후보로 순차적으로 대체하여 성공적인 적대적 샘플을 찾음

Zang 등은 세멘 기반 HowNet이 WordNet보다 더 많은 대체 단어를 제공할 수 있음을 보여주고 입자 군집 최적화(PSO)를 사용하여 공격해야 할 단어 그룹을 결정함

PSO에서, 각 문장은 검색 공간에서 입자로 취급되며, 입자의 각 차원은 단어에 해당함

따라서 입자의 위치를 점진적으로 최적화하여 성공적인 적대적 예제를 찾을 수 있음

6.2.4 Multilevel Attack

다단계 공격은 상기 세 가지 공격 전략 중 적어도 두 가지를 결합하여 적대적 텍스트를 생성함

단일 전략을 사용하는 것에 비해 다단계 공격 알고리즘은 상대적으로 더 복잡하고 계산 비용이 많이 듬

예를 들어, Liang 등은 삽입, 수정, 제거라는 세 가지 전략을 통해 문자 수준과 단어 수준 모두에서 텍스트 입력을 변조함

이 전략들은 비용 기울기를 활용하여 식별된 핫 문자와 핫 단어(즉, 분류에 중요한 항목)에 적용됨

또한, 적대적 텍스트의 가독성과 유용성을 향상시키기 위한 자연어 워터마킹 기술을 제안함(예: 의미가 없는 구문 삽입)

단일 전략(예: 제거)만 사용하는 것은 종종 분류기를 속이기에 충분하지 않으며, 미묘한 적대적 샘플을 만들기 위해 세 가지 전략을 결합하는 것이 필수적임

그러나 이러한 전략들을 어떻게 결합할지에 대한 명확한 최적화 원칙이 부족함

Li 등은 단어 수준과 문자 수준 모두에서 양호한 텍스트를 수정하는 TextBugger를 제안함

구체적으로, 다섯 가지 유형의 버그 변조 방법을 정의함: (1) 단어에 공백 삽입, (2) 단어의 무작위 문자 삭제(첫 번째와 마지막 문자 제외), (3) 단어의 두 인접한 글자 교환, (4) 시각적으로 유사한 문자로 문자 대체, 그리고 (5) GloVe 임베딩 공간에서 k-가장 가까운 이웃으로 단어 대체

각 입력 단어에 대해, 올바른 라벨 확률을 가장 많이 감소시키는 이 다섯 가지 전략 중에서 최고의 버그를 선택함

최종 적대적 출력은 모든 입력 단어에 대해 이 절차를 반복함으로써 만들어짐

Wang 등은 단어 수준(T3(WORD))과 문장 수준(T3(SENT))에서 텍스트를 변조하는 트리 기반 공격 프레임워크 T3를 제시함

T3의 핵심 구성 요소는 이산 텍스트 공간을 연속 의미 임베딩 공간으로 변환할 수 있는 사전 훈련된 트리 기반 오토인코더임

이는 이산 입력 문제를 해결하여 기울기 기반 최적화 방법을 사용하여 적대적 임베딩을 찾을 수 있게 함

최종적으로 적대적 임베딩은 트리 기반 디코더와 일련의 트리 문법 규칙을 사용하여 적대적 텍스트로 매핑될 수 있음

고성공률은 반복적인 과정을 통해 달성됨

이미지 공격과 유사하게, 이러한 텍스트 공격 방법들의 전형적인 특성은 표 6.3에서 요약됨

표 6.3에서 볼 수 있듯이, 대부분의 기

존 텍스트 공격 방법은 비목표 지향적 공격을 위해 설계됨

6.3 Spam Filtering

6.3.1 Text Spam

이메일 스팸 필터링은 개념 변화에서의 게으른 학습 문제로 분석되었음

Kazemian 등은 악성 웹 페이지를 탐지하기 위한 기계 학습 기법을 비교함

독해 시스템에서의 적대적 예제는 Jia 등에 의해 분석됨

Chen 등은 맬웨어 탐지를 위한 기계 학습 분류기에서 적대적 예제에 대해 논의함

Miyato 등은 순환 신경망에서 단어 임베딩에 대한 적대적 예제로 적대적 훈련에 대해 논의함

Dasgupta 등은 소셜 미디어 사이트에서 감정 분석을 위한 텍스트 분류에서 적대적 공격 시나리오를 살펴봄

Cheng 등은 시퀀스-투-시퀀스 모델을 위한 적대적 예제를 만듦

저자들의 방법은 특정 데이터 소스에 국한되지 않음

이미지 데이터베이스, 텍스트 데이터베이스 및 시계열 데이터베이스를 포함한 실험을 진행함

6.3.2 Image Spam

이미지 스팸 탐지 문제는 적대적 환경에서 멀티미디어 데이터의 내용 기반 필터링의 일부임

이러한 멀티미디어 데이터는 종종 인터넷 커뮤니티와 모바일 네트워크에서 생성됨

Attar 등의 조사에 따르면, 이미지 스팸은 스팸 텍스트 메시지를 이미지에 포함시켜 생성됨

적대적 목적은 광학 문자 인식 소프트웨어에 의한 텍스트 인식을 방해하는 것임

키워드 탐지, 텍스트 분류, 이미지 분류 및 거의 중복 탐지는 이미지 스팸 탐지를 위한 기존 기술임

이러한 기술을 적대적 학습에 적용할 때, 기본 가정은 스팸 이미지와 합법적인 이미지를 구분하는 특징(및 해당 특징)이 적대적 특징으로 오염될 가능성이 낮다는 것임

적대적 특징은 콘텐츠 기반 이미지 검색의 근거에 기반을 두고 있으며, 여기서 스팸 이미지 또는 합법적인 이미지를 찾는 검색은 쿼리 이미지에서 발견된 일련의 저수준 특징에 의해 주도됨

이러한 방법에서는 각 특징 공간에 대해 쿼리 이미지와 데이터베이스의 템플릿 간의 거리를 계산하고 임계값과 비교하여 이미지가 스팸 이미지인지 합법적인 이미지인지 결정함

따라서, 적대적 학습 알고리즘의 일반화 능력은 적대적 데이터 조작을 위한 적절한 특징 선택에 크게 의존함

기존 문헌에서 특징 선택은 스팸 이미지와 합법적인 이미지를 가장 잘 구분하는 속성에 대한 가정에 따라 달라짐

가장 일반적으로 사용되는 특징에는 텍스트 오염, 텍스트 영역, 저수준 이미지 속성(예: 색상, 질감 등), 이미지 유사성, 이미지 영역 유사성 및 이미지 메타데이터가 포함됨

관련 특징은 분류 정확도, 진짜 양성 비율, 가짜 양성 비율, 정밀도 및 재현율과 관련된 결과에 기반하여 선택됨

가장 일반적인 분류기에는 서포트 벡터 머신, 의사 결정 나무, 최대 엔트로피 모델 및 베이지안 네트워크가 포함됨

6.3.3 Biometric Spam

생체 인식은 보안이 주요 이슈인 연구 영역임

생체 인식의 보안은 패턴 분류 방법의 취약성에 의해 결정됨

Biggio 등은 적응형 생체 인식 시스템에서의 공격과 방어에 대해 조사함

적응형 생체 인식 시스템에서의 공격은 생체 인식의 인식 또는 시간에 따른 생체 인식 특성의 변화와 관련이 있음

이러한 공격을 효과적으로 처리하기 위해, 저장된 생체 인식 템플릿은 검증 중에 제출된 클레임된 신원과 일치해야 함

생체 인식 신원 매칭 과정에서 발견된 공격 포인트는 Biggio 등에 의해 센서 입력, 특징 추출, 템플릿 데이터베이스, 매칭 알고리즘, 템플릿 업데이트, 점수 규칙 및 점수 임계값으로 분류됨

적응형 생체 인식에서 추가적인 공격 포인트에는 템플릿 도난 및 멀웨어 감염이 포함됨, 이는 본질적인 실패를 무시함

이러한 공격은 센서, 모듈 및 알고리즘을 연결하는 인터페이스와 채널, 처리 모듈 및 알고리즘, 템플릿 데이터베이스에 대한 공격으로 더 분류됨

적응형 생체 인식 시스템에서 발생하는 공격으로는 다음이 포함됨:

스푸핑 공격은 등록된 클라이언트를 사칭하기 위해 가짜 생체 인식 특성을 제조함

재생 공격은 매칭 알고리즘에서 특징으로 도난당한 생체 인식을 무대에 올림

힐 클라이밍 공격은 매칭 알고리즘에 반복적으로 교란된 데이터를 보내고 최대 매칭 점수를 주는 데이터를 유지함

이 공격은 적대자가 사용하는 최적화 방법이 수렴할 때까지 반복됨

멀웨어 감염 공격은 해킹 기술과 프로그래밍 관행을 통해 잘 알려진 소프트웨어 및 하드웨어 취약성을 악용함

템플릿 도난 공격은 암호화되지 않은 채로 부적절하게 보호된 템플릿 데이터베이스를 대상으로 함

Biggio 등은 보안 설계에 따른 생체 인식 시스템에서 적대적 학습 알고리즘에 대한 동기를 부여하기 위해 Vidyadhari 등이 논의한 보안 프레임워크에 따라 공격을 특성화함

스푸핑 공격 시나리오, 포이즈닝 공격 시나리오, 회피 공격 시나리오가 적대적 학습 알고리즘을 위한 동기로 논의됨

보안 설계에 따른 생체 인식 시스템의 패턴 매칭 알고리즘은 통계 데이터베이스 고려 사항에 따라 처음부터 설계되어야 함

이러한 데이터베이스는 매칭 알고리즘의 일부로 적대적 공격을 탐지하고 완화하는 데 도움을 주는 패턴 매칭 점수를 유도함