한줄 요약: 

짧은 요약(Abstract) :    
딥러닝은 입증된 보안성이 없음
딥 뉴럴 네트워크는 악의적인 적들로부터의 보안 공격에 취약하며, 이는 딥러닝 연구자들에게 지속적이고 중대한 도전임
이 장에서는 딥 뉴럴 네트워크의 취약점을 악용하는 적대적 딥러닝 알고리즘을 연구함
주요 초점은 제로지식 블랙박스 공격 시나리오 하에서 특히 네트워크 강건성을 향상시키기 위한 일련의 게임 이론적 적대적 딥러닝 알고리즘임
최근에는 네트워크 취약점을 연구하는 많은 작업들이 있었지만, 제로지식 블랙박스 공격에 대해 제안된 것은 거의 없으며, 게임 이론 기반 접근 방식에 대해서는 더욱 적음
심지어 훈련 데이터에서 무해해 보이는 변화조차도 딥 네트워크가 의도하지 않은 방식으로 동작하게 할 수 있음
이는 훈련 데이터에서 거의 감지할 수 없고 무시할 만큼 작은 변화가 있을 때, 지도된 딥러닝을 사용할 때 완전히 다른 레이블 분류 결과를 초래할 수 있음을 의미함
이 장에서 제안된 알고리즘적 세부사항은 게임 이론적 적대적 딥러닝과 진화적 적들, 확률적 적들, 무작위화된 적들, 변이적 적들을 포함한 우리의 연구에서 제안된 바 있음
공격 시나리오를 설계함에 있어 적의 목표는 테스트 데이터에 감지할 수 없는 작은 변화를 만드는 것이었음
적은 입력 데이터의 표현 매개변수를 조작하여 딥 뉴럴 네트워크의 학습 과정을 오도하여 원래 클래스 레이블을 목표 클래스 레이블로 잘못 분류하게 만드는 데 성공함
Useful sentences :  
*

단어정리

2.1 Learning Curve Analysis for Supervised Machine Learning

지도 학습 및 최적화를 위한 무료 점심(NFL) 정리는 모든 학습 이론적 상황에서 평균을 내면, 복잡한 훈련보다 단순한 훈련을 선호하는 기계 학습 모델이 실패하는 경우가 성공하는 경우만큼 많다고 주장함 이는 훈련 데이터를 생성하는 무작위 과정이 테스트 데이터를 지배하는 무작위 과정과 항상 같지는 않다는 것을 의미함 고려해야 할 대안 모델이 많고, 데이터에 혼합된 잡음을 분석하기 위해 선택한 통계 모델이 올바른 것이거나 모든 데이터 샘플에서 패턴을 적절히 포착하는 것을 보장할 수 없음 스무딩 및 규제 기술은 테스트 데이터에서 그러한 패턴이 무엇이어야 하는지에 대한 사전 개념과 가정을 최소화하면서 훈련 데이터에서 패턴을 밝히는 간단한 접근 방식임 일반적으로 선택된 분석 알고리즘에 대한 모델 선택 기준과 싸워야 함

지도 학습 알고리즘으로 구축된 예측 분석 모델에서 모델 선택 기준은 훈련 및 테스트 데이터 샘플에 대한 적합도 최적화를 수행함 이것을 교차 검증이라고 하며, 통계 모델이 예측하는 것만큼 좋다고 가정함 이 모델 평가 방식은 세상이 변할 때 반사실적 예측을 추정할 수 없음 그래서 그림 2.1은 예측된 클래스를 실제 클래스와 비교하기 위해 추가 검증 데이터 샘플을 보여줌 적대적 학습에서 이러한 비교는 적대적 비용 함수를 사용하여 수행되며, 이는 지도 학습 알고리즘의 예측 생성에 있어 클래스 및 비용 분포 정보를 모두 고려함 따라서 적대적 데이터는 모델 선택에서 검증 데이터 샘플의 일부로 간주될 수 있음 적대적 훈련 과정은 기계 학습 모델을 사용자가 제공한 훈련 데이터 샘플과 적이 생성한 검증 데이터 샘플 모두에서 훈련시킴 그런 다음 검증 데이터 샘플은 기계 학습 모델을 훈련시키기 위한 하이퍼파라미터를 미세 조정하는 데 사용됨

2.2 Adversarial Loss Functions for Discriminative Learning

적대적 예제는 딥러닝의 손실 함수를 실험함으로써 만들어질 수 있음 이러한 실험은 판별 학습에서의 적대적 손실 함수와 해당 훈련 절차에 대한 경험적 데이터 분석을 가능하게 함 이 연구는 사이버 물리 시스템에서 딥러닝의 신뢰성을 연구하는 데 적용될 수 있음

저자들은 최적화 알고리즘을 통해 해결되는 적대적 학습 목표 함수와 함께 적대적 손실 함수를 공식화하고 사용자 정의할 수 있음 그런 다음 적대적 학습 알고리즘은 딥 뉴럴 네트워크를 오도할 목표로 적을 대상으로 한 훈련 데이터 조작을 고안할 수 있음 이런 식으로 딥러닝의 취약성을 입증한 후에는 강력한 뉴럴 네트워크를 제안하기 위한 방어 메커니즘을 제안할 수 있음

지도 학습 응용 프로그램에 특정한 손실 함수는 예측 분석의 통계적 오류를 평가함 일반적으로 손실 함수는 예측 분류 모델의 편향을 줄이고 예측 회귀 모델의 분산을 줄임 여기서 적대적 손실 함수는 예측 모델의 모델 노이즈에 대한 민감성을 줄임

저자들의 제안은 게임 이론적 적대적 딥러닝 패러다임에서 이 유형의 노이즈를 분석함 그것은 적대적 페이오프 함수를 설계함을 포함하며, 이는 적대적 비용 함수를 최적화하여 다양한 유형의 적을 위한 적대적 데이터 조작을 생성함 이러한 적에는 진화적 적, 확률적 적, 무작위화된 적, 변이적 적이 포함됨

저자들의 적대적 손실 함수에 대한 직관은 게임 이론의 행동과 움직임 개념에서 파생됨 학습하는 동안 공격 시나리오는 학습 알고리즘에 의해 이루어진 움직임과 지능적인 적에 의해 이루어진 반격으로 모델링됨 게임 이론은 목표를 달성하기 위해 최적의 페이오프 함수 또는 유틸리티 함수를 최적화하는 일련의 전략/움직임/행동을 가진 독립적이고 이기적인 에이전트 또는 플레이어 간의 상호 작용을 연구함 게임은 결국 플레이어가 이탈할 유인이 없는 평형 상태로 수렴함

제안된 적대적 학습의 최적화를 통해 저자들은 깊은 학습에서 판별적 손실 함수를 경험적으로 분석하여 잘못 분류된 데이터 점을 생성하고 따라서 훈련 데이터에 적대적 조작을 생성할 수 있음 게다가, 전통적인 딥러닝 방법과는 대조적으로, 저자들은 탐색 공간의 적대적 조작에 대해 비연속적이고 비차별적인 적대적 페이오프 함수를 제안함 지도 학습 및 게임 이론에 대한 경험적 위험 최소화 프레임워크 내에서, 저자들은 분류 및 회귀를 포함하는 판별 학습을 위한 적대적 손실 함수를 연구함

2.3 Adversarial Examples in Deep Networks

Papernot 등은 실제로 딥러닝 모델 간에 전송 가능한 적대적 샘플을 제시함
이러한 적대적 예제는 목표 딥 뉴럴 네트워크(DNN)의 무결성을 제어하기 위해 구성되며, 목표 DNN의 아키텍처 매개변수 및 훈련 데이터에 대한 접근 없이도 가능함
대신, 대체 DNN이 훈련되어 목표 DNN이 학습한 모델을 근사화함
대체 DNN도 목표 DNN의 확률 벡터, 즉 훈련 입력과 클래스 간의 관계에 대한 목표 DNN의 믿음을 인코딩하는 확률 벡터에 대한 지식이 없음
공격은 적이 선택한 입력에 대해 목표 DNN의 출력을 관찰할 수 있다고 가정할 때 정의됨
적의 모델은 목표 모델과 동일한 훈련 데이터 분포에 접근할 수 있음

대체 DNN은 자코비안 기반 데이터 증대 기술을 통해 훈련됨
이 알고리즘 단계는 대체 모델 훈련이라고 함
이 데이터 증대 기술은 적이 입력 도메인에서 목표 DNN의 동작을 대표하는 데이터 포인트를 선택할 수 있게 함
적대적 공격을 실행 가능하게 만들기 위해 목표 DNN에 대한 질의 수를 제한함으로써 적대적 공격을 용이하게 함
질의는 입력 데이터 도메인을 효율적으로 탐색하는 탐색 휴리스틱에 의해 공식화됨

적대적 예제를 찾은 후에는 대체 DNN의 및 목표 DNN의 비용 그라디언트 서명 행렬이 상관 관계가 있음을 관찰함에 따라 적대적 샘플의 섭동을 미세 조정하여 적대적 샘플의 전송 가능성을 극대화함
이 알고리즘 단계는 적대적 샘플 제작이라고 함
전체적으로 적대적 알고리즘은 초기 수집, 아키텍처 선택, 라벨링, 훈련 및 증대의 단계를 거침
적대적 알고리즘은 목표 모델의 결정 경계를 대표하는 대체 훈련 세트를 생성함

2.4 Adversarial Examples for Misleading Classifiers

신경망이 대규모 병렬 비선형 단계로 임의의 계산을 표현함으로써 높은 성능을 달성한다는 사실을 인정함에도 불구하고, Szegedy 등은 신경망 층이 기저 분포에서

신경망이 대규모 병렬 비선형 단계로 임의의 계산을 표현함으로써 높은 성능을 달성한다는 사실을 인정함에도 불구하고, Szegedy 등은 신경망 층이 기저 분포에서 의미 정보를 분리하지 않는다는 관찰을 함
Szegedy 등은 심층 네트워크가 불연속적인 입력-출력 매핑을 학습하여 데이터 세트의 다른 하위 집합에 대해 훈련된 경우에도 미세한 섭동이 심층 네트워크의 예측 오류를 증가시킬 수 있다는 사실을 발견함
이러한 미세한 섭동을 적대적 예제라고 함
적대적 예제 학습은 깊은 네트워크 구조와 입력 데이터 분포와 본질적으로 연결되어 있음
Szegedy 등의 실험에서 상당량의 적대적 예제가 심층 네트워크에 의해 잘못 분류됨이 발견됨
이러한 적대적 예제들은 심층 네트워크의 하이퍼파라미터 설정, 층의 수, 가중치의 초기화 및 규제와 같은 변화를 통해 생성됨
따라서 Szegedy 등은 적대적 예제가 특정 심층 학습 모델의 과적합 결과가 아니라 결론짓음

단순 선형 모델에 대한 고차원 입력 신호에서, Goodfellow 등은 적대적 예제로부터 오는 많은 미세한 변경 사항이 딥러닝에서 출력에 대해 하나의 큰 변경 사항으로 합산된다는 것을 관찰함
Goodfellow 등은 심층 네트워크 분류기가 고차원 공간에서 이러한 선형적인 행동을 보인다고 가설을 세움
그런 다음 적대적 예제는 고차원 점곱의 속성으로 분석됨
기본 모델 가중치의 안정성은 적대적 예제의 안정성을 초래한다고 함
현재 매개변수 값 주위에서 딥 네트워크의 비용 함수를 선형화하여 적대적 섭동을 생성하는 방법이 고안됨
이 방법은 빠른 기울기 부호 방법(FGSM)이라고 불리며, 여기서 적대적 섭동의 방향이 데이터 공간에서의 위치보다 더 중요하다고 가정됨
그런 다음 딥러닝 모델의 적대적 훈련이 FGSM의 적대적 예제에 대한 최악의 경우 오류를 최소화하는 비선형 규제로 제안됨
적대적 훈련은 학습 모델이 근처 점들의 레이블을 복사하는 휴리스틱 레이블러로부터 적대적 예제에 대한 새로운 레이블을 얻는 활성 학습으로도 간주됨
Papernot 등은 목표 심층 신경망 내부에 대한 지식 없이 적대적 예제를 생성하기 위한 블랙박스 공격 전략을 도입함
Nguyen 등은 진화 알고리즘과 함께 적대적 예

제를 생성하고 ‘속이는 이미지’라고 부름
‘속이는 이미지’는 인간의 눈에는 인식할 수 없지만 심층 신경망(DNN)에 의해 높은 확신을 가지고 인식 가능한 객체로 분류됨
다차원 아카이브 오브 페노타입 엘리트(MAP-Elites)라고 불리는 진화 알고리즘에 의해 ‘속이는 이미지’의 집단이 진화함
MAP-Elites는 각 목표에 대해 지금까지 발견된 최고의 개체를 유지함
그런 다음 집단에서 무작위로 선택된 유기체를 돌연변이시키고 새로운 개체가 해당 목표에 대해 더 높은 적합도를 가질 경우 현재 챔피언을 대체함
DNN의 예측 점수는 MAP-Elites에서 적합도 함수로 사용됨
이전에 본 적이 있는 클래스에 대해서는 더 높은 예측 점수를 가진 ‘속이는 이미지’가 해당 클래스의 챔피언이 됨
MNIST 데이터 세트의 이미지 픽셀과 CPPN에 의해 생성된 이미지 픽셀은 MAP-Elites의 유전체를 나타냄
CPPN의 다양한 활성화 함수는 ‘속이는 이미지’에 다양한 기하학적 규칙성을 제공함
MAP-Elites의 진화 연산자는 집단 내의 각 CPPN 네트워크의 위상, 가중치 및 활성화 단위를 결정함
훈련 데이터 세트와 DNN 아키텍처 간의 다양한 가설에 대한 예측 점수 및 Mann-Whitney U 테스트는 MAP-Elites가 출력하는 ‘속이는 이미지’ 분포를 검증함

Carlini 등은 분류기로 작동하는 피드포워드 신경망에 대한 화이트박스 및 블랙박스 공격 시나리오를 고안함
여러 탐지 메커니즘을 가로질러 새로운 적대적 손실 함수가 제안됨으로써 신경망 분류기를 속이는 실험이 제안됨
그런 다음 적대적 예제의 데이터 공간 및 전이 가능성 속성을 탐색하기 위한 실험이 제안됨
공격을 공식화하기 위해 제로 지식 적, 완벽한 지식 적 및 제한된 지식 적의 세 가지 위협 모델이 정의됨
제로 지식 적은 분류기의 클래스 레이블 예측을 대상으로 하면서 탐지기의 존재를 알지 못함
제로 지식 적은 제안된 모든 탐지기를 대상으로 하는 기준으로 작용함
반면에 완벽한 지식 적은 분류기 매개변수와 탐지기의 탐지 계획을 모두 알고 있으며, 따라서 화이트박스 공격을 수행함
블랙박스 공격을 수행하기 위해 Carlini 등은 제한된 지식 적이 탐지기의 탐지 계획을 알고 있지만 훈련된 분류기, 훈련된 탐지기 또는 그들의 훈련 데이터에 접근할 수 없다고 가정함

2.5 Generative Adversarial Networks

Goodfellow 등은 딥러닝 네트워크의 취약성에 대한 주된 원인이 그들의 고차원 검색 공간에서의 선형적 성질에 있다고 주장함
또한 딥러닝 네트워크는 훈련 데이터 분포에서 높은 확률을 갖지 않는 테스트 데이터 예제에 대해 성능이 떨어짐
따라서 적대적 예제는 훈련 데이터에 최악의 케이스 섭동을 적용하여 잘못된 출력 예측을 높은 확신으로 생성할 수 있음
이에 Goodfellow 등은 훈련 데이터가 적대자에 의해 섭동될 때 최악의 케이스 오류를 최소화하는 것을 목표로 하는 적대적 훈련 절차의 필요성을 주장함
그들은 적대적 훈련을 두 개의 딥 뉴럴 네트워크 사이의 최소-최대 게임으로 공식화함
결과적으로 생성된 딥 생성 모델을 생성적 적대적 네트워크(GANs)라고 함

다양한 딥 생성 방법이 훈련 및 테스트 데이터 분포 사이의 섭동을 생성하기 위해 사용될 수 있음
Radford 등은 안정적인 GAN인 DCGAN을 제안함
Gulrajani 등은 IWGAN을 디자인하며, 여기서는 생성 학습 과정에 대한 이론적 분석을 수행함
Berthelot 등은 훈련 알고리즘에서 새로운 손실 함수를 도입하는 BEGAN을 제안함
Chen 등은 InfoGAN을 제안하며, 이는 비감독 표현 학습을 위한 생성 학습 모델을 사용함

저자들의 연구 목표와 관련하여, 저자들의 게임 공식은 GAN 게임 공식과 유사하지만, 저자들의 연구의 목적은 실제 적대적 공격 시나리오에서 두 레이블 및 다중 레이블 분류 모델에 대해 적대적으로 변경된 데이터 분포의 비용을 증가시키는 것임
저자들은 데이터 분포가 악의적인 의도로 변경될 때 분류 성능을 향상시키고자 함
반면에, GAN의 목적은 원본 데이터와 구별할 수 없는 합성 데이터를 생성하는 것임
저자들의 목적 함수에는 공격 시나리오를 정의하는 비용 및 오류 항이 포함되어 있음
반면에, GAN에서의 목적 함수는 주어진 훈련 및 테스트 데이터 분포를 학습하는 딥 뉴럴 네트워크의 손실 함수 측면에서 정의됨

최소-최대 게임 공식에서, 저자들은 판별 학습 모델 및 지도 학습 문제에 대한 공격 시나리오 데이터 세트를 생성하는 반면, GAN은 생성 학습 모델 및 비지도 학습 문제를 다룸
게임의 리더인 생성기와 달리, 저자들의 최소-최대 공식에서는 지능적인 적이 게임을 이끔
최소-최대 게임에서 나쉬 평형을 찾기 위해 GAN은 기울기 기반 최적화 알고리즘을 사용하여 볼록 최적

화 문제를 해결하는 반면, 저자들은 진화적 학습 알고리즘을 사용하여 비볼록 확률적 최적화 문제를 해결함
따라서 저자들은 적대적 공격을 효과적으로 수행하기 위한 최적의 비용을 추정할 수 있음

2.6 Generative Adversarial Networks for Adversarial Learning

적대적 예제는 딥 생성 모델에 대해서도 정의되어 있음
화이트박스 공격과 블랙박스 공격에서 적대적 조작의 분포는 AdvGAN에 의해 모델링됨
적대적 오토인코더에 대한 연구 스레드는 오토인코더 네트워크가 훈련 데이터를 학습하는 동안 자동 인코더가 샘플이 잠재 공간에서 온 것인지 또는 사용자가 결정한 사전 분포에서 온 것인지를 판별적으로 예측하도록 강제하는 사전 분포를 오토인코더의 출력에 부과함
이와는 대조적으로, 저자들의 게임 이론적 최적화 문제는 특정 훈련 데이터 분포와 분류 모델로부터 독립적임

Larsen 등은 변이 오토인코더의 재구성 손실에 적대적 학습을 제안함
Tran 등은 오토인코더의 잠재 공간에서 생성적 적대적 네트워크를 훈련시키기 위해 거리 함수에 대한 제약을 제안함
Gregor 등은 순차적 변이 오토인코더 프레임워크에서 주의 메커니즘 기반 오토인코더를 학습함
Ha 등은 이미지 스케치 생성을 위한 순환 신경망을 제안함
Makhzani 등은 확률적 오토인코더에 대한 적대적 훈련 메커니즘을 제안함

Gilmer 등과 Biggio 등은 딥러닝에서의 적대적 공격 시나리오에 대한 분류학을 제공함
저자들의 공격 시나리오와 스택켈버그 게임은 새로운 적대적 페이오프 함수를 제안함
적대적 조작을 위한 특징 공간은 적대적 비용 함수, 확률적 연산자 및 시뮬레이션된 담금질 알고리즘에서의 게임 전략 측면에서 표현됨

Wang 등은 생성적 적대적 네트워크의 이론과 구현에 대한 검토를 제공함
게임 이론적 적대적 학습 알고리즘에 대한 기존 생성적 적대적 네트워크 공식화에 대한 분류학이 표 2.1, 2.2, 2.3 및 2.4에서 요약됨
표에서의 행들을 거쳐 알고리즘 비교는 생성자 네트워크의 공격 시나리오, 손실 함수, 전략 공간 및 목적 함수 측면에서 이루어짐
대부분의 딥 생성 모델은 목적 함수의 게임 이론적 최적화 측면에서 데이터 분포를 분석하지 않음
대조적으로, 저자들의 방법은 최적화를 위한 적대적 페이오프 함수와 목적 함수 내에서 규제를 위한 적대적 비용 함수를 제안함

2.6.1 Causal Feature Learning and Adversarial Machine Learning

인과성 방법은 준지도 학습 및 전이 학습과 같은 딥러닝 문제에 적용되었음
이러한 문제에서는 다른 네트워크에서 검색된 정보가 하이브리드 딥러닝 네트워크의 가중치를 중심으로 하는 데 사용됨
그런 네트워크는 실제 데이터에서 패턴, 구조, 맥락 및 내용에 대한 통계적 가설을 구성하는 데 사용됨

딥 네트워크에 대한 역전파 학습 알고리즘은 확률적 그래픽 모델을 훈련시키는 데 개선되었음
이러한 훈련은 본질적으로 베이지안이며, 사전 분포가 후방 분포를 예측하는 분석 모델을 정보하고 제한함
개선된 딥러닝 알고리즘은 인과 추론에 의해 정보가 제공되는 불확실한 환경에서 작동하는 딥 네트워크의 해석 가능성을 향상시킴
베이지안 프레임워크 내에서 인과성 방법은 또한 특정 응용 프로그램 도메인에서 규칙 기반 분류기의 인과적 특징을 발견하는 새로운 민감도 분석, 이상 탐지 및 개념 드리프트 응용 프로그램을 정의하는 데 사용될 수 있음

저자들은 게임 이론적 적대적 학습에서 잠재 변수 모델과 함께 적대적 공격 시나리오에 관심이 있음
Kumari 등은 적대적으로 훈련된 이미지 분류 모델의 잠재 층에서의 화이트박스 공격 수준을 연구함
잠재 층에서의 적대적 훈련은 FGSM의 반복 변형을 사용하여 특징 층에서 더 높은 견고성을 달성함
저자들의 연구는 잠재 공간에서 적대적 조작을 생성하는 딥 생성 모델을 만드는 적대적 학습의 게임 이론적 정규화를 제공함

Chattopadhyay 등은 신경망 출력에 대한 입력 특징의 인과적 영향을 조사하기 위한 구조적 인과 모델을 제안함
이러한 인과적 영향은 신경망 기여도라고 하며, 회귀 특징과 달리 신경망 입력과 출력 사이의 상관 관계를 주로 매핑하는 것이 아니라 딥 네트워크 인과 관계의 해석 가능한 산물임
시퀀스 예측 작업에서 이러한 구조적 인과 모델은 입력 뉴런 간의 인과적 의존성이 시계열 모델에 적용된 데이터 생성 메커니즘과 같은 잠재적 공통 원인에 의해 공동으로 유발된다고 가정함

Yang 등은 픽셀 수준 특징에 대한 인과적 추론을 픽셀별 마스킹 및 적대적 섭동을 통해 연구함
Ancona 등과 Lundberg 등은 협력적 게임 이론에서 Shapley 값으로 예측 설명 방법을 논의함

저자들의 연구 조사는 게임 이

론적 적대적 조작의 이러한 해석 가능한 산물을 만드는 것임
이를 위해 저자들은 회귀 예측에 대한 Granger-인과적 특징을 생성함
향후 작업에서 저자들은 신경망 기여도에서 데이터 생성 메커니즘의 잠재 변수 모델에 대한 예측 기준을 생성할 것으로 기대함
저자들은 이러한 기준이 응용 프로그램별 규칙 기반 분류기에서 반대 사실적 특징을 발견할 것으로 기대함

2.6.2 Explainable Artificial Intelligence and Adversarial Machine Learning

저자들은 적대적 학습에 적용 가능한 딥 생성 모델에 대한 해석 가능한 인공 지능(XAI)에 관심이 있음
Lou 등은 일반화된 선형 모델(GLMs)의 해석 가능한 확장으로 일반화된 가법 모델(GAMs)을 소개함
Guidotti 등은 블랙박스 모델의 설명 가능성에 대해 검토함
Rudin은 본질적으로 해석 가능한 모델과 XAI 모델을 비교함
Wang 등은 해석 가능한 모델과 블랙박스 모델을 통합하는 하이브리드 규칙 세트를 제안함
Frosst 등은 신경망 학습을 일반화하는 결정 트리를 만듦
Ribeiro 등은 이미지 분류 및 시각적 질문 응답에 대한 텍스트 앵커 설명을 제공함
Ignatiev 등은 예측 설명을 제공하기 위해 제약 추론 시스템을 제안함

Strumbelj 등은 연합 게임 이론으로 예측을 설명함
Bulo 등은 손글씨 숫자 인식, 스팸 탐지 및 악성 코드 탐지에서 분류기와 공격자가 각각의 전략 집합에서 일부 확률 분포에 따라 무작위 전략 선택을 하는 비협조적 게임 이론적 공식화인 무작위 예측 게임을 정의함
Peake 등은 잠재적 요인 추천 시스템에서 해석 가능한 협회 규칙 구조를 만들어 블랙박스 모델을 훈련시킴
Lakkaraju 등은 해석 가능성을 위해 설계된 결정 세트 학습을 통해 규칙 기반 모델을 만듦
Baehrens 등은 분류 방법의 결정에 대한 설명 방법을 제안함
Ribeiro 등은 부분 모듈러 함수 최적화로 설계된 분류기의 예측을 설명함
Shrikumar 등은 기울기 기반 방법보다 중요한 이점을 보이는 신경망 활성화에 대한 중요도 점수를 계산함
Koh 등은 영향 함수를 사용하여 예측을 설명함

Bastani 등은 딥 뉴럴 네트워크의 견고성을 평가하기 위한 메트릭을 제안함
Narodytska 등은 심층 신경망의 속성을 검증하기 위해 딥 뉴럴 네트워크의 부울 표현을 만듦
Tomsett 등은 해석 가능성과 적대적 공격 간의 연결에 대해 검토함
Liu 등은 기계 학습 모델의 해석을 활용하는 적대적 저항 감지 프레임워크를 개발함
Tao 등은 해석 가능성을 기반으로 얼굴 인식 모델에 대한 적대적 샘플 탐지 기술을 제안함
Fidel 등은 DNN의 내부 계층에 대해 계산된 SHAP(Shapley Additive exPlanations) 값으로 적대적 예제를 탐지하는 방법을 제안함
Ilyas 등은 비견고한 특징의 존재에 적대적 예제를 속성함
Ignatiev 등은 기계 학습(ML) 모델 예측과 적대적 예제(AEs)의 설명(XPs)이 서로 관련되어 있음을 보여주는 일차 논리(FOL) 프레임워크인 히팅 세트 이중성을 시연함

2.6.3 Stackelberg Game Illustration in Adversarial Deep Learning

그림 2.3은 저자들의 적대적 오토인코더 기반 스택켈버그 게임 모델을 설명하는 플로우차트임
이미지 데이터베이스에서 가져온 레이블이 지정된 훈련 데이터 Xtrain과 레이블이 지정된 테스트 데이터 Xtest에 대해 w∗∈ W인 가중치를 가진 다중 레이블 분류기 CNNoriginal(이하 CNNo로 축약)이 훈련되고 평가됨
CNNo는 저자들의 게임 이론적 적대자와 두 플레이어 게임에 참여함
적은 CNNo를 목표로 삼아 목표 양성 레이블 target = pos를 모든 음성 레이블 neg ∈ Neg로 조작하는 최적의 공격 α∗∈ A를 각 나쉬 균형에서 생성함
이 연구에서 pos와 Neg는 전체 = pos ∪ Neg인 클래스 레이블이며 A = Enc(Xtrain)은 Xtrain에 대해 훈련된 오토인코더 함수 Enc에 의해 결정됨

각 게임 반복에서 최적의 αbest는 시뮬레이션된 담금질 알고리즘에 의해 생성됨
훈련 데이터 Xtrain의 경우 각 αbest는 인코딩된 공간에서 Enc(Xtrain) + αbest의 적대적 데이터를 생성하며, 그 후 Dec(Enc(Xtrain) + αbest)로 디코딩되어 CNNo와 비교됨

게임이 수렴하면 각 pos와 neg 쌍에 대해 추론된 최적의 α∗가 출력됨
모든 α∗는 CNNo에 대한 다중 레이블 적대적 공격을 수행하는 데 결합되며, 이로 인해 조작된 분류기 CNNmanipulated(이하 CNNm으로 축약)가 출력됨
마지막으로 CNNm은 다중 레이블 적대적 공격에 견고한 보안 분류기 CNNsecure(이하 CNNs로 축약)로 재훈련됨

2.7 Transfer Learning for Domain Adaptation

기계 학습에서 전이 학습은 한 데이터 분석 문제에서 얻은 학습 가능한 지식을 다른 문제에 적용하는 것임
이전 데이터 세트 및 작업에서 정보와 지식을 저장하고 재사용하고 전송하는 것은 새로운 기계 학습 문제에서의 샘플 효율성을 향상시킬 수 있는 잠재력을 가지고 있음
특히 강화 학습 에이전트와 같은 새로운 기계 학습 문제에서 지도 학습 후 전이 학습은 상업적 기계 학습 및 확장 가능한 딥러닝에서의 성공의 큰 원동력임
다중 작업 학습의 한 형태로서 전이 학습은 스팸 필터링과 같은 적대적 기계 학습 응용 프로그램에서 다중 레이블 분류를 향상시키기 위해 지도 학습에서 사용될 수 있음

도메인 적응은 스팸 필터링에 적용 가능한 전이 학습의 한 분야임
여기서 소스 분포는 소스 분포와 관련이 있지만 다른 타겟 분포에 대해 잘 수행되는 모델을 학습하는 데 사용됨
소스 분포는 소스 사용자에게 수신된 스팸 이메일일 수 있으며, 도메인 적응은 다른 타겟 사용자의 스팸 이메일을 모델링하려고 함
따라서 소스와 타겟 데이터 분포는 동일한 특징 공간을 가지지만 도메인 적응에서 다른 데이터 분포를 가짐
전이 학습과는 달리 도메인 적응의 특징 공간은 소스 데이터와 타겟 데이터가 동일할 수도 있고 다를 수도 있음

도메인 적응은 훈련 데이터와 기계 학습 알고리즘에 사용 가능한 데이터 및 적대적 학습 알고리즘의 해당 분포 견고성을 모델링하는 데 사용될 수 있는 데이터 간의 분포 변화를 모델링하는 데 사용될 수 있음
따라서 현대 기계 학습 커뮤니티는 실제 인공 지능 응용 프로그램의 적대적 기계 학습에 적용될 수 있는 다중 레이블 분류에 대한 지도 학습을 개선하기 위한 도메인 적응 전략을 가지고 있음
이러한 전략은 조건부, 준지도, 약지도, 다중 모달, 다중 구조적인 지도 학습 알고리즘의 더 약한 형태로 이어질 수 있음
여기서는 수동으로 레이블이 지정된 훈련 데이터가 클래스 레이블에서의 오류와 잡음 없이 사용할 수 없음
이로 인해 배포 변화의 정보 필터링 내에서 이상 감지, 신규성 감지 및 변경 지점 감지와 같은 적대적 학습 응용 프로그램에 대한 조건부, 준지도, 약지도, 다중 모달 및 다중 구조적 지도 학습 알고리즘이 발생함
여기서는 특정 장면에서 사용 가능한 데이터에 대한 규칙을 삽입하여 도메인 전

문가와 함께 새로 생성된 훈련 데이터를 레이블 지정하는 함수를 주입할 수 있음

2.7.1 Adversarial Examples in Transfer learning

전이 학습에서 적대적 예제는 새로운 도메인으로 지식을 전송할 때 중요한 문제임
적대적 예제는 소스 도메인에서 학습된 모델을 이용해 타겟 도메인으로 지식을 전송하는 과정에서 발생할 수 있음
예를 들어, 소스 도메인에서 학습된 모델이 타겟 도메인의 데이터에 적용될 때, 모델이 잘못된 예측을 하게 만드는 미세한 섭동이 적대적 예제를 통해 주입될 수 있음
이는 전이 학습이 타겟 도메인에서 예측을 수행할 때 정확도를 떨어뜨릴 수 있음

도메인 적응의 맥락에서, 적대적 예제는 소스 도메인과 타겟 도메인 사이의 분포 차이를 이용함
소스 도메인에서의 적대적 예제가 타겟 도메인에서도 유사한 방식으로 작용하여 타겟 도메인의 모델 성능에 영향을 미칠 수 있음
이는 타겟 도메인에서 모델의 견고성을 감소시키는 주요 요소가 됨

따라서 전이 학습을 사용할 때는 적대적 예제에 대한 모델의 견고성을 증가시키는 방법을 고려해야 함
이를 위해 소스 도메인에서 타겟 도메인으로 지식을 전송하기 전에 적대적 훈련과 같은 방법을 사용하여 모델을 강화할 수 있음
이는 모델이 소스 도메인과 타겟 도메인 모두에서 적대적 예제에 대해 더 견고해지도록 함

결론적으로, 전이 학습과 도메인 적응 과정에서 적대적 예제는 주요 고려 사항임
적대적 예제에 대한 모델의 견고성을 증가시키는 방법을 찾는 것은 전이 학습을 성공적으로 수행하기 위한 중요한 단계임

2.7.2 Adversarial Examples in Domain Adaptation

도메인 적응에서 적대적 예제는 소스 도메인과 타겟 도메인 간의 차이를 이용하여 모델의 성능을 저하시킬 수 있음
소스 도메인에서 잘 작동하는 모델이 타겟 도메인에 적용될 때, 적대적 예제는 모델의 예측에 미세한 섭동을 주입하여 잘못된 결과를 유도할 수 있음
이는 특히 타겟 도메인에서 충분한 양의 레이블이 지정된 데이터가 없을 때 문제가 될 수 있음

적대적 예제는 도메인 적응 과정에서 모델이 타겟 도메인의 데이터를 잘 일반화하지 못하게 만듦
이는 타겟 도메인에 특화된 모델의 견고성을 감소시키고, 결과적으로 타겟 도메인의 성능을 저하시킬 수 있음
따라서 도메인 적응을 수행할 때는 적대적 예제에 대한 모델의 견고성을 증가시키는 전략을 고려하는 것이 중요함

한 가지 접근 방식은 소스 도메인과 타겟 도메인에서 모두 적대적 예제에 대한 훈련을 포함시키는 것임
이를 통해 모델은 두 도메인 간의 분포 차이에도 불구하고 적대적 예제에 대해 더 견고해질 수 있음
또한, 도메인 적응 과정에서 모델이 소스 도메인의 데이터뿐만 아니라 타겟 도메인의 데이터에서도 잘 작동하도록 보장하는 다양한 기술이 사용될 수 있음

결론적으로, 도메인 적응에서 적대적 예제는 모델의 성능에 중대한 영향을 미칠 수 있으며, 이에 대응하기 위한 전략을 고려하는 것이 중요함
적절한 방법을 사용하여 모델의 견고성을 증가시키는 것은 도메인 적응 과정에서 성공적인 결과를 얻기 위한 핵심 요소임

2.7.3 Adversarial Examples in Cybersecurity Domains

사이버보안 분야에서 적대적 예제는 시스템의 보안 메커니즘을 우회하기 위해 고안된 입력 데이터의 조작된 버전임
이러한 예제들은 종종 시스템이 잘못된 결정을 내리도록 유도하여 악의적인 행위자가 시스템에 침입하거나 민감한 정보에 접근할 수 있게 함
적대적 예제는 머신 러닝 기반의 사이버보안 시스템에 특히 위험함

예를 들어, 악성코드 탐지 시스템은 악성코드의 패턴을 학습하여 새로운 악성코드를 탐지함
하지만 악의적인 행위자는 적대적 예제를 사용하여 악성코드를 조작해 시스템이 악성코드를 정상적인 파일로 잘못 분류하도록 만들 수 있음
이러한 방식으로, 악성코드는 탐지 시스템을 우회하여 네트워크에 침입할 수 있음

또한, 스팸 필터링 시스템이나 침입 탐지 시스템과 같은 다른 사이버보안 응용 프로그램에서도 적대적 예제가 사용될 수 있음
스팸 필터링 시스템의 경우, 악의적인 행위자는 스팸 이메일을 조작하여 필터를 우회해 수신자의 메일함에 도달할 수 있음
침입 탐지 시스템의 경우에는 네트워크 트래픽의 일부를 조작하여 시스템이 정상적인 트래픽으로 잘못 인식하게 만들 수 있음

따라서 사이버보안 분야에서는 적대적 예제에 대한 시스템의 견고성을 향상시키는 것이 중요함
이를 위해, 적대적 훈련과 같은 방법이 사용될 수 있으며, 이는 시스템이 적대적 예제를 더 잘 인식하고 방어할 수 있도록 함
적대적 예제에 대한 이해와 대응 전략 개발은 사이버보안 분야에서 머신 러닝 시스템의 안정성과 신뢰성을 보장하는 데 필수적임