[2025]Superintelligence Strategy: Expert Version
한줄 요약: 이 논문은 **국가안보 관점**에서 AI를 다루며, 방법으로는 **억제(Deterrence)·비확산(Nonproliferation)·경쟁력(Competitiveness)**의 3축 전략을 제시합니다.
짧은 요약(Abstract) :
이 논문의 핵심은 **초지능(superintelligence) 시대에 국가들이 어떤 전략을 가져야 하는가**입니다.
저자들은 AI가 국가 안보를 크게 바꾸고 있다고 봅니다. AI는 경제력과 군사력을 키워주는 동시에, 잘못 쓰이면 **사이버 공격, 생물무기 개발, 통제 상실** 같은 대형 재난을 일으킬 수 있습니다.
논문은 특히 **“Mutual Assured AI Malfunction (MAIM)”**이라는 개념을 제시합니다.
이것은 핵무기 시대의 **상호확증파괴(MAD)**와 비슷한 개념으로, 어떤 국가가 AI로 일방적 우위를 차지하려 하면 다른 국가들이 그 AI 프로젝트를 **미리 방해하거나 파괴하는 억지 체제**를 뜻합니다.
즉, AI 패권을 독점하려는 시도는 오히려 상대국의 **사보타주, 해킹, 심하면 물리적 공격**을 불러올 수 있다는 것입니다.
저자들은 이런 전략적 현실이 이미 시작됐다고 주장합니다.
따라서 국가들은 단순히 AI 경쟁에서 이기려 하기보다, 다음의 **3가지 축**으로 접근해야 한다고 말합니다.
1. **Deterrence(억지)**
- 상대가 위험한 AI 프로젝트를 추진하지 못하도록 위협과 대응 능력을 갖추는 것
- MAIM이 여기에 해당
2. **Nonproliferation(비확산)**
- 테러리스트나 불량국가 같은 위험한 행위자에게 AI 칩, 모델 가중치(weights), 위험한 AI 능력이 퍼지지 않도록 막는 것
3. **Competitiveness(경쟁력 강화)**
- AI를 통해 경제와 군사력을 강화하고, 국내 AI 칩 생산 등으로 공급망을 안정화하는 것
즉, 이 논문은 **AI를 단순한 기술이 아니라 국가 안보의 핵심 변수**로 보고,
앞으로는 **억지·비확산·경쟁력 강화**를 묶은 종합 전략이 필요하다고 주장합니다.
---
The paper argues that **superintelligence is becoming a major national security issue**.
AI is advancing rapidly and is expected to reshape military power, economic strength, and the global balance of power. At the same time, highly capable AI systems could also enable catastrophic misuse, such as cyberattacks, bioweapon design, and loss of human control.
The authors introduce the idea of **Mutual Assured AI Malfunction (MAIM)**, which is analogous to nuclear **Mutual Assured Destruction (MAD)**.
Under MAIM, if one state tries to gain unilateral AI dominance through a destabilizing project, rival states would respond with **preventive sabotage**—ranging from covert cyber operations to possible physical attacks on datacenters.
This creates a deterrence regime in which a direct grab for AI monopoly becomes too dangerous.
The paper argues that this strategic reality is already emerging.
Therefore, states should adopt a three-part strategy:
1. **Deterrence**
- Prevent destabilizing AI projects by making them vulnerable to retaliation
- MAIM is the central deterrence framework
2. **Nonproliferation**
- Keep dangerous AI chips, model weights, and weaponizable AI capabilities out of the hands of terrorists and rogue actors
3. **Competitiveness**
- Strengthen national power through AI adoption, domestic chip manufacturing, and military integration of AI
In short, the paper claims that AI should be treated as a **national security technology**, not just a commercial one, and that the best response is a combined strategy of **deterrence, nonproliferation, and competitiveness**.
---
* Useful sentences :단어정리
*
Methodology
논문에서 제안하는 메써드의 구조적 특징
이 논문은 전형적인 의미의 새로운 AI 모델 아키텍처를 제안하는 논문이 아니라, 초지능 시대에 대비한 전략 프레임워크(strategy paper) 입니다.
따라서 여기서의 “메써드”는 보통의 머신러닝 논문처럼 Transformer 구조, 학습 손실 함수, 데이터셋 구성을 제안하는 것이 아니라, 다음과 같은 정책·안보·기술적 통제 메커니즘을 묶어 설명합니다.
즉, 이 논문의 방법론은 크게 다음 3축으로 구성됩니다.
- Deterrence (억지)
- Nonproliferation (비확산)
- Competitiveness (경쟁력 확보)
이 3개가 논문의 핵심 method framework입니다.
1. 이 논문의 “모델”에 해당하는 것: 개별 AI가 아니라 전략적 행위자 체계
이 논문은 하나의 단일 모델을 제안하기보다,
AI를 국가안보의 핵심 변수로 보는 전략 모델을 제시합니다.
핵심 관점
- AI는 단순한 소프트웨어가 아니라 전략적 자산
- AI 시스템은 민간 생산성 도구이면서 동시에 무기화 가능한 dual-use 기술
- 따라서 국가가 다뤄야 할 대상은 “모델 성능”만이 아니라:
- 누가 AI를 가지는가
- 누가 칩을 가지는가
- 모델 가중치가 유출되는가
- AI가 인간 통제를 벗어나는가
- 타국이 이를 위협으로 인식하는가
즉, 논문의 “모델”은 기술적 모델이 아니라 국제정치적 상호작용 모델에 가깝습니다.
2. 특별한 아키텍처: MAIM( Mutual Assured AI Malfunction )
이 논문의 가장 독특한 개념은 MAIM입니다.
이는 Mutual Assured Destruction(MAD), 즉 핵 억지 이론을 AI 시대에 대응시킨 것입니다.
MAIM의 정의
- 어떤 국가가 AI로 전략적 독점(strategic monopoly) 을 시도할 경우
- 경쟁국이 그 프로젝트를 선제적 sabotage(파괴/방해) 할 것이라는 억지 구조
- 그래서 누구도 AI 패권을 쉽게 독점하려 하지 못하게 만드는 체계
MAIM의 작동 논리
- 한 국가가 초지능급 AI 프로젝트를 추진
- 경쟁국은 이를 자국 안보에 대한 위협으로 인식
- 경쟁국은:
- 사이버 공격
- 내부자 침투
- 데이터센터 방해
- 경우에 따라 물리적 공격까지 사용해 프로젝트를 무력화할 수 있음
- 그 결과, 공격적 독점 시도가 억제됨
논문이 말하는 핵심 포인트
- 이 억지는 새로 발명해야 하는 제도가 아니라,
이미 전략 환경상 자연스럽게 형성되는 기본 상태(default regime) 라는 점 - 즉, 강대국 간 AI 경쟁은 이미 서로의 AI 프로젝트를 maim할 수 있는 상호 취약성 위에 놓여 있음
3. 훈련 데이터나 학습 절차에 대한 특별한 제안은?
이 논문은 일반적인 의미의 학습 데이터셋 설계를 상세히 다루지 않습니다.
예를 들어 다음 같은 내용은 거의 없습니다:
- 대규모 pretraining 데이터의 구성
- RLHF 파이프라인
- SFT 데이터 샘플링
- 벤치마크별 최적화
- 특정 아키텍처 하이퍼파라미터
대신 이 논문은 훈련 과정에서의 위험을 중심으로 언급합니다.
관련된 훈련/개발 개념
1) Intelligence Recursion
- AI가 AI 연구를 자동화하면서
- 다음 세대 AI를 스스로 설계하는 루프
- 기존의 “AI-assisted R&D”보다 더 강한 개념
- 인간보다 훨씬 빠른 속도로 반복 개발이 일어날 수 있음
이 논문에서 recursion은 사실상 특정 훈련 방식 + 연구 자동화 체계입니다.
2) Automated R&D Population
- 단일 모델 하나가 자기 자신을 수정하는 것이 아니라
- 여러 AI 연구자 에이전트의 집단이 다음 세대 AI를 설계하는 구조
- 따라서 전통적인 모델 훈련보다 훨씬 통제하기 어렵다고 봄
3) Safeguard Co-evolution
- AI가 발전할수록 안전장치도 같이 진화해야 함
- 한 번의 완전한 해결책이 아니라
- 지속적 검증, 모니터링, 업데이트가 필요함
즉, 학습 기법 자체보다 훈련-통제의 동시진화(co-evolution) 가 중요한 method입니다.
4. 논문이 제안하는 핵심 기술적 메커니즘
이 논문은 “AI를 어떻게 통제할 것인가”에 대해 여러 기술적 수단을 제시합니다.
이것이 사실상 이 논문의 실질적 method입니다.
A. Deterrence를 위한 메커니즘
이 부분은 AI 프로젝트를 직접 보호하는 방법보다,
위협적인 AI 프로젝트를 상대가 망가뜨릴 수 있게 하는 억지 구조를 말합니다.
1) Espionage
- 경쟁국 AI 프로젝트의 정보 수집
- 개발 방향, 인력, 시설, 보안 상태 파악
2) Covert sabotage
- 내부자, 유출, 훈련 데이터 오염, 모델 가중치 훼손
- 훈련을 망가뜨려 성능 저하 유도
3) Cyberattacks
- 데이터센터, 전력, 냉각 시스템 공격
- 코드 삭제, GPU 장애 유발
4) Kinetic attacks
- 극단적 경우 물리적 타격도 가능하다고 언급
이것들은 “공격 기술”처럼 보이지만, 논문에서는 이를 억지를 유지하는 수단으로 서술합니다.
B. Nonproliferation을 위한 메커니즘
이 부분이 기술적으로 가장 구체적입니다.
목표는 rogue actor(테러리스트, 불량국가 등) 에게 치명적 AI 능력이 퍼지는 것을 막는 것입니다.
1) Compute Security
AI 칩의 위치를 알고, smuggling을 막는 것
- 수출통제(export controls)
- 라이선스 제도
- 재판매/이동 추적
- 재고 확인
- 위성 감시
- tamper-evident camera
- 폐기 검증(decommissioning verification)
즉, GPU/AI chip을 fissile material처럼 다룬다는 발상입니다.
2) Firmware-Level Features
칩 자체에 보안 기능을 넣는 방식
- Geolocation
- 칩이 현재 어디에 있는지 추정
- 불법 지역 이동 시 비활성화 가능
- Geofencing
- 허가된 영역 밖에서는 기능 제한
- Remote attestation
- 칩이 정기적으로 인증을 받아야 작동
- Networking restrictions
- 허가된 칩끼리만 연결 가능
- Operational mode restrictions
- training / inference 전환을 통제
- Physical tamper resistance
- 흔들림, 개봉, 조작 감지 시 차단
즉, 하드웨어와 펌웨어 수준에서 AI compute를 추적 가능하고 통제 가능한 자산으로 만드는 전략입니다.
3) Information Security
- 모델 가중치(weights)
- 연구 아이디어
- 설계 문서
- 내부 커뮤니케이션
이런 정보의 유출을 막는 방법입니다.
구체적으로는:
- MFA
- least privilege
- insider threat program
- threat intelligence sharing
- clearance 기반 접근
- 보안 점검
중요한 점은, 이 논문이 모델 weights를 공개하면 irreversible proliferation이 발생한다고 보는 것입니다.
4) AI Security
모델 자체가 악용되지 않도록 하는 방어기법입니다.
- refusal training
- input/output filtering
- circuit breakers
- monitoring
- KYC(Know Your Customer)
- mandatory government testing
- liability clarification
즉, API나 배포된 모델이 weaponization 요청을 거부하도록 설계하는 것입니다.
C. Competitiveness를 위한 메커니즘
이 부분은 기술 그 자체보다 국가가 AI를 경제·군사적으로 활용하는 방법에 가깝습니다.
1) Military AI integration
- 드론
- command and control
- cyber offense
2) Domestic chip manufacturing
- AI 칩을 자국 내에서 생산
- Taiwan 의존도를 낮춤
3) Legal frameworks for AI agents
- AI agent를 법적으로 규율
- reasonable care
- duty not to lie
- fiduciary duties
4) Political stability mechanisms
- forecast AI
- misinformation 대응
- automation 충격 완화
5. 논문에서 말하는 “특별한 기법” 요약
이 논문에 등장하는 기술적/운영적 기법을 요약하면 다음과 같습니다.
1) 감시 및 추적
- chip location tracking
- satellite imagery
- datacenter inspections
- continuous monitoring
2) 접근 통제
- export control
- licensing
- KYC
- clearance
- least privilege
3) 모델 보호
- weight security
- code security
- insider threat mitigation
4) 안전장치
- refusal training
- circuit breakers
- input/output filters
- red teaming
- human oversight
5) 하드웨어 내장 통제
- geofencing
- remote attestation
- network restrictions
- tamper resistance
6) 전략적 억지
- espionage
- sabotage
- cyber disruption
- escalation ladder
6. 이 논문에서 “트레이닝 데이터”는 어떤 의미로 등장하나?
이 논문은 전통적 데이터셋 설명은 거의 없지만, 아래처럼 데이터를 안보 자산으로 본다는 점이 중요합니다.
- training data는 공격적으로 오염될 수 있음
- 데이터 유출은 모델 가중치 유출만큼 위험할 수 있음
- AI가 virology나 cyber domain 데이터를 학습하면 weaponizable capability가 강화될 수 있음
- 따라서 데이터 접근도 security issue
즉, 데이터는 단순 학습 재료가 아니라 전략물자에 준하는 정보 자산으로 취급됩니다.
7. 한 문장으로 정리하면
이 논문의 메써드는
“초지능을 직접 만드는 기술”이 아니라, 초지능으로 가는 과정에서 발생하는 국가안보 위험을 억지(deterrence), 비확산(nonproliferation), 경쟁력(competitiveness)이라는 3축으로 관리하는 전략적·기술적 통제 체계” 입니다.
The Methodological Structure of the Paper
This paper is not a conventional machine learning paper proposing a new model architecture.
Instead, it is a strategy paper about how states should handle the rise of advanced AI and superintelligence from a national security perspective.
So, when we ask about its “method,” we are not talking about a Transformer architecture, a dataset recipe, or a specific training objective.
Rather, the paper’s method is a strategic framework built around three pillars:
- Deterrence
- Nonproliferation
- Competitiveness
These are the paper’s core methodological components.
1. What counts as the “model” in this paper?
The paper does not propose a single AI model.
Instead, it proposes a strategic model of international behavior in an AI world.
Core assumptions
- AI is not just software; it is a strategic asset
- AI systems are dual-use technologies: useful for civilian and military purposes
- Therefore, the central issue is not only model performance, but:
- who has the AI
- who has the chips
- whether model weights leak
- whether AI escapes human control
- whether rival states perceive AI development as a threat
So the paper’s “model” is really a geopolitical and security model, not a technical ML model.
2. Special architecture: MAIM
The paper’s most distinctive concept is MAIM, short for Mutual Assured AI Malfunction.
This is a direct analogy to MAD (Mutual Assured Destruction) in nuclear strategy.
Definition
If one state tries to achieve a unilateral AI strategic monopoly, rival states may respond by preemptively sabotaging that AI project.
This creates an equilibrium where no power wants to rush toward AI dominance.
Logic of MAIM
- A state tries to push a frontier AI project toward superintelligence
- Rivals perceive it as a national security threat
- Rivals may respond with:
- cyberattacks
- espionage
- insider sabotage
- datacenter disruption
- in extreme cases, kinetic attacks
- This deters aggressive monopoly-seeking behavior
Key point
The paper argues that MAIM is not merely a policy aspiration.
It is already close to the default strategic condition among AI superpowers because destabilizing AI projects are relatively vulnerable to sabotage.
3. Does the paper propose a special training dataset or training recipe?
Not really in the usual ML sense.
The paper does not provide:
- a pretraining dataset design
- a fine-tuning recipe
- an RLHF pipeline
- a new loss function
- a specific model architecture
Instead, it focuses on the risks of training and deployment.
Relevant training/development concepts
1) Intelligence recursion
This is the paper’s main technical-development concept:
- AI systems automate AI research
- those AI researchers build the next generation of AI
- the process becomes a fast feedback loop
This is more than AI-assisted R&D; it is a population-level autonomous research loop.
2) Automated AI R&D population
Instead of one model improving itself, the paper imagines:
- many AI researcher agents
- collectively designing the next generation of models
- at machine speed
3) Co-evolution of safeguards
As AI improves, safeguards must also evolve. There is no one-time fix.
So the paper’s “training method” is really about how AI development, safety, and control must evolve together.
4. Core technical mechanisms proposed in the paper
These are the closest thing to the paper’s actionable “methods.”
A. Deterrence mechanisms
These are meant to make strategic monopoly attempts risky for rivals.
1) Espionage
Gathering information about rival AI projects.
2) Covert sabotage
Using insiders or covert operations to corrupt training runs, weights, or data.
3) Cyberattacks
Targeting datacenters, power systems, cooling, or code infrastructure.
4) Kinetic attacks
In extreme cases, physical strikes are mentioned as a last resort.
These are framed not as recommendations for aggression, but as part of the deterrence environment that the paper claims already exists.
B. Nonproliferation mechanisms
This is the most concrete technical policy section.
The goal is to keep catastrophic AI capabilities away from rogue actors.
1) Compute security
Treat AI chips like strategic materials.
Tools include:
- export controls
- licensing regimes
- inventory tracking
- shipment monitoring
- satellite imagery
- tamper-evident cameras
- verified decommissioning
2) Firmware-level features
Embed security into the chips themselves.
Examples:
- Geolocation
- Geofencing
- Remote attestation
- Networking restrictions
- Operational mode restrictions
- Physical tamper resistance
This means chips can detect unauthorized movement, require periodic authorization, or disable themselves if tampered with.
3) Information security
Protect:
- model weights
- research ideas
- design documents
- internal communications
Measures include:
- MFA
- least privilege
- insider threat programs
- clearance systems
- intelligence sharing
4) AI security
Protect deployed models from misuse.
Mechanisms include:
- refusal training
- input/output filtering
- circuit breakers
- monitoring
- KYC
- mandatory government testing
- liability rules
C. Competitiveness mechanisms
These help states remain economically and militarily strong.
1) Military integration
Use AI in:
- drones
- command and control
- cyber offense
2) Domestic chip manufacturing
Build AI chip supply chains at home.
3) Legal frameworks for AI agents
Set behavioral constraints such as:
- reasonable care
- duty not to lie
- fiduciary duties
4) Political stability measures
Use:
- forecasting AIs
- misinformation control
- automation mitigation
5. What “special techniques” does the paper emphasize?
The paper repeatedly emphasizes:
1) Monitoring and tracking
- chip location tracking
- datacenter inspections
- satellite imagery
- continuous monitoring
2) Access control
- export controls
- licensing
- KYC
- clearance
- least privilege
3) Model protection
- weight security
- code security
- insider-threat defense
4) Safety mechanisms
- refusal training
- circuit breakers
- filters
- red teaming
- human oversight
5) Hardware-level control
- geofencing
- attestation
- networking restrictions
- tamper resistance
6) Strategic deterrence
- espionage
- sabotage
- cyber disruption
- escalation ladders
6. What role do training data play?
The paper does not give a formal dataset design, but it treats data as a security-sensitive strategic asset.
- training data can be poisoned
- data can leak
- domain-specific data can increase weaponizable capabilities
- access to data must therefore be controlled
So data are not just training inputs; they are part of the national security problem.
7. One-sentence summary
The paper’s method is not a new AI architecture, but a three-part strategic control framework for managing superintelligence risks through deterrence, nonproliferation, and competitiveness.
Results
1) 이 논문의 “결과”는 무엇인가?
이 논문에서 말하는 핵심 “결과”는 실험 성능 수치가 아니라,
AI 시대의 국가안보 전략은 단일 처방이 아니라 3개 축으로 구성돼야 한다는 결론입니다.
즉, 저자들은 다음과 같은 종합 전략 프레임워크를 제시합니다.
- Deterrence (억제)
- 특히 MAIM (Mutual Assured AI Malfunction) 개념
- 경쟁국이 AI 전략적 독점을 시도하면, 상대국이 이를 사보타주/사이버공격/필요시 물리적 공격으로 무력화하려는 억지 구조
- Nonproliferation (비확산)
- AI 칩, 모델 가중치(weights), 위험한 AI 역량이 테러리스트·비국가 행위자에게 퍼지는 것을 막아야 함
- 수단: compute security, information security, AI security
- Competitiveness (경쟁력)
- 국가가 AI를 경제·군사력 강화에 활용해야 함
- 수단: 국내 AI 칩 제조, 드론 공급망, AI 에이전트 법적 프레임워크, 정치적 안정성 유지
즉, 논문의 결론은
“AI는 전통적인 안보 프레임으로 다뤄야 하며, 억제·비확산·경쟁력의 3축이 필요하다” 입니다.
2) “경쟁모델”에 해당하는 것들
이 논문에는 ML에서 말하는 모델 벤치마크 경쟁모델이 아니라,
정책/전략 경쟁모델이 있습니다.
특히 3가지 기존 전략을 비판적으로 비교합니다.
(1) Hands-off / YOLO 전략
논문 3.4절에서 언급:
- 규제 없이 AI를 자유롭게 개발·배포
- AI 칩 수출통제 반대
- 오픈웨이트 공개 찬성
- 문제점:
- 테러리스트와 적대국이 악용 가능
- 국가안보 위협을 무시
- 논문은 이를 “credibly nor coherent strategy”라고 비판
(2) Moratorium 전략
- 위험한 능력이 나타나면 모두가 자발적으로 개발 중단
- 문제점:
- 군사적 유인이 너무 강해서 약속 준수가 어렵다
- 검증 수단이 부족해 toothless treaty가 되기 쉽다
- 상대가 몰래 개발할지 불신하게 됨
(3) Monopoly 전략
- 한 국가 또는 한 프로젝트가 초지능을 독점하려는 전략
- 문제점:
- 상대국의 선제 대응/사보타주를 유발
- 핵심 인프라가 공격 표적이 됨
- 극단적 escalation과 omnicide 위험
(4) 논문이 제안하는 대안 모델: Multipolar Strategy
이 논문은 위 3개를 대신해,
multipolar strategy를 제안합니다.
- Deterrence: MAIM
- Nonproliferation: chips/weights/capabilities 통제
- Competitiveness: 국내 생산·법적 제도·군사 통합
즉, “경쟁모델”은 성능 비교용 AI 모델이 아니라
전략 대안들 간의 비교로 이해하는 것이 맞습니다.
3) 테스트데이터는 무엇인가?
이 논문에는 ML 실험의 의미에서의 테스트데이터는 없습니다.
대신, 논리 검증용으로 다음의 비교 사례/역사적 사례/위협 시나리오를 사용합니다.
(1) 역사적 사례
- 핵무기 시대
- MAD(상호확증파괴)
- 쿠바 미사일 위기
- ABM 체계와 억제 균형
- Nunn–Lugar 프로그램
- 생화학무기 통제
- Biological Weapons Convention
- DNA synthesis screening
- 사이버보안 사례
- Stuxnet
- critical infrastructure 취약성
- 산업/군사 혁신 사례
- 맨해튼 프로젝트
- 전차, 드론, 핵 억제 구조
(2) AI 관련 시나리오
- AI가 전문 수준의 virology 역량을 갖는 경우
- AI가 사이버공격 자동화를 가능케 하는 경우
- AI가 loss of control을 일으키는 경우
- AI가 intelligence recursion에 진입하는 경우
- 오픈웨이트 모델이 WMD 수준 역량을 퍼뜨리는 경우
즉, 테스트데이터는 수치셋이 아니라
전략적·정책적 사고실험(scenario analysis) 입니다.
4) 메트릭은 무엇인가?
이 논문은 여러 곳에서 “정량화 가능한 지표”를 제안하지만,
실제 실험 메트릭보다는 정책 평가용 개념 메트릭에 가깝습니다.
부록 A.2에서 특히 명시합니다.
(1) Deterrence / MAIM 메트릭
- “number of critical zero-days that could maim a major AI project”
- 의미:
- 주요 AI 프로젝트를 무력화할 수 있는 치명적 0-day 취약점 수
- 해석:
- 이 수치가 많을수록 사보타주 가능성이 높아져 억지력/불안정성에 영향
(2) Nonproliferation / Compute Security 메트릭
- “number of high-end AI chips with location unknown”
- 의미:
- 위치 추적이 안 되는 고급 AI 칩 수
- 해석:
- 이 수치가 높을수록 밀수·유출·비국가 행위자 확산 위험이 큼
(3) KYC / 악용 차단 메트릭
- “Jailbreaks: number of attempts before jailbreak”
- “time to detect a red team member abusing API”
- 의미:
- 우회 공격에 몇 번 버티는지
- 악용 사용자를 얼마나 빨리 탐지하는지
- 해석:
- API 기반 악용 방어의 강도 평가
(4) Dual-use capability 메트릭
- “sandboxed amateurs can create powerful bio or cyberweapons”
- 의미:
- 제한된 환경의 비전문가도 강력한 생물/사이버 무기를 만들 수 있는지
- 해석:
- AI가 공격자의 역량을 얼마나 민주화하는지
(5) Intelligence recursion 메트릭
- “fraction of compute spent on safeguards upgrades”
- “omnicide risk-tolerance”
- 의미:
- 안전 강화에 어느 정도 연산 자원을 쓰는지
- 위험 허용 수준이 얼마인지
- 해석:
- recursive AI R&D에서 안전과 속도 간 균형을 보려는 지표
(6) Competitiveness 메트릭
- “percent of high-end AI chips manufactured domestically”
- “percent of GDP from AI”
- 의미:
- 국내 생산 비중
- AI가 GDP에 기여하는 비율
- 해석:
- 국가 경쟁력과 공급망 탄력성을 측정
5) 비교는 어떻게 이루어지나?
논문은 주로 3가지 차원의 비교를 합니다.
A. 전략 비교
- YOLO vs Moratorium vs Monopoly vs Multipolar Strategy
- 저자 결론:
- YOLO는 무책임
- Moratorium은 비현실적
- Monopoly는 불안정
- Multipolar Strategy가 상대적으로 현실적
B. 위험 비교
- 국가 간 경쟁 위험
- 테러리스트 악용 위험
- AI 자체의 통제 상실 위험
이 3개를 별개로 보고, 각각 다른 정책 수단이 필요하다고 봅니다.
C. 통제 수준 비교
부록/도표에서 Low / Medium / High Control로 구분합니다.
예:
- Low control
- 규제 거의 없음
- AI 자유방임
- 오픈웨이트 광범위 공개
- Medium control
- 논문이 추천하는 수준
- 법적 장치, 테스트, KYC, 비확산, MAIM
- High control
- AI 국유화
- 완전한 폐쇄
- AI 권리 배제
- 매우 강한 통제
저자들은 대부분 medium control을 선호합니다.
6) 논문에서 가장 중요한 “비교 결론”
(1) MAD와 MAIM의 비교
논문은 MAIM을 핵무기 시대의 MAD에 비유합니다.
- MAD
- 핵 선제공격 시 상호 파괴가 보장되어 억제
- MAIM
- AI 전략적 독점 시도는 상대의 사보타주로 무력화
차이:
- MAD는 핵무기 자체의 상호취약성
- MAIM은 AI 프로젝트 인프라의 상대적 취약성을 이용
즉, MAIM은 핵보다 더 쉽게 “maiming attack”이 가능하다고 봅니다.
(2) 오픈웨이트 vs 폐쇄형 API
논문은 오픈웨이트 공개에 비판적입니다.
- 오픈웨이트:
- 공개 후 회수 불가
- 바이오/사이버 악용 위험
- 모델 가중치가 바로 확산
- API:
- KYC, 필터링, 모니터링 가능
- 악용 탐지 및 차단 가능
따라서 위험한 역량이 있는 모델은 closed deployment가 더 안전하다고 봅니다.
(3) 기술적 안전 vs 제도적 안전
논문은 안전을 단순히 정렬(alignment) 기술로만 보지 않습니다.
- 기술적 안전:
- refusal training
- circuit breakers
- output filtering
- boxing
- monitoring
- 제도적 안전:
- 법
- KYC
- 검증
- 수출통제
- 국가 간 합의
즉, 기술만으로는 부족하고 제도와 결합해야 한다고 주장합니다.
7) 한 문장 요약
이 논문의 “결과”는 실험 성능이 아니라,
AI는 국가안보 문제이므로 “억제(MAIM) + 비확산 + 경쟁력 강화”의 3축 전략으로 다뤄야 하며, 기존의 무규제·자발적 유예·독점 전략은 모두 불안정하다는 정책적 결론입니다.
1) What is the paper’s “result”?
This paper is not an empirical machine-learning paper reporting benchmark numbers.
It is a strategy and policy paper.
So the “result” is not model accuracy, but a policy conclusion:
- Deterrence
- especially through Mutual Assured AI Malfunction (MAIM)
- Nonproliferation
- preventing AI chips, model weights, and dangerous capabilities from reaching rogue actors
- Competitiveness
- using AI to strengthen military, economic, legal, and political capacity
The paper’s main conclusion is that AI should be treated as a national-security issue, and the proper response is a three-part framework: deterrence, nonproliferation, and competitiveness.
2) What are the “competing models”?
There are no ML-style competing models here.
Instead, the paper compares strategic policy models.
(1) Hands-off / YOLO strategy
- No restrictions on developers, chips, or models
- Opposes export controls
- Supports open release of frontier weights
- Criticized as incoherent and unsafe
(2) Moratorium strategy
- Voluntary pause once dangerous capabilities appear
- Criticized because:
- states have strong incentives to defect
- verification is weak
- treaties would be toothless
(3) Monopoly strategy
- One state or one project seeks AI dominance
- Criticized because:
- it invites preemptive sabotage
- destabilizes international relations
- may lead to escalation and omnicide
(4) Proposed alternative: Multipolar strategy
The paper recommends:
- Deterrence via MAIM
- Nonproliferation
- Competitiveness
3) What is the test data?
There is no test dataset in the ML sense.
Instead, the paper uses historical analogies and scenario analysis:
- Nuclear deterrence and MAD
- Cuban Missile Crisis
- ABM systems
- Biological Weapons Convention
- Stuxnet and cyber sabotage
- Manhattan Project
- AI virology and cyberattack scenarios
- Loss-of-control and intelligence recursion scenarios
So the “test data” is really a set of strategic case studies and thought experiments.
4) What metrics are used?
The paper proposes conceptual policy metrics, not experimental benchmarks.
Deterrence / MAIM metric
- Number of critical zero-days that could maim a major AI project
Compute security metric
- Number of high-end AI chips whose location is unknown
KYC / misuse control metrics
- Number of jailbreak attempts before success
- Time to detect API abuse by a red-team member
Dual-use capability metric
- Whether sandboxed amateurs can create powerful bio or cyberweapons
Intelligence recursion metric
- Fraction of compute spent on safety upgrades
- Risk tolerance for omnicide
Competitiveness metric
- Percent of high-end AI chips manufactured domestically
- Percent of GDP coming from AI
5) How is comparison done?
The paper compares strategies along three dimensions:
A. Strategy comparison
- YOLO vs Moratorium vs Monopoly vs Multipolar strategy
B. Risk comparison
- State competition risk
- Terrorist misuse risk
- Loss-of-control risk
C. Degree of control
The paper contrasts:
- Low control
- Medium control
- High control
It clearly favors medium control:
- meaningful safeguards
- legal constraints
- verification
- nonproliferation
- but not total nationalization or total laissez-faire
6) Most important comparative findings
MAD vs MAIM
- MAD: nuclear deterrence through mutual destruction
- MAIM: AI deterrence through mutual sabotage of destabilizing AI projects
Open weights vs closed APIs
- Open weights are irreversible and easier to misuse
- Closed APIs allow KYC, filtering, and monitoring
Technical safety vs institutional safety
- Technical methods alone are insufficient
- Legal, diplomatic, and verification mechanisms are also required
7) One-sentence summary
The paper’s core result is that AI should be managed as a national-security domain through a three-part strategy of deterrence, nonproliferation, and competitiveness, while unrestricted development, voluntary moratoria, and monopoly-seeking strategies are all unstable and dangerous.
원하시면 다음 단계로는
1) 이 논문을 표 형태로 정리,
2) “결과/메트릭/비교”만 따로 압축 정리,
3) 발표용 PPT 문장 스타일로 재작성
중 하나로 바꿔드릴 수 있습니다.
예제
1) 먼저 결론: 이 논문에서 말하는 “예시”는 무엇인가?
논문은 다음과 같은 정책적/전략적 테스크를 제시합니다.
- 테러리스트의 악용 방지
- 예: 바이오무기, 사이버공격
- 국가 간 억지(deterrence)
- 예: 상대국의 AI 전략 프로젝트를 봉쇄/마비
- 비확산(nonproliferation)
- 예: AI 칩, 모델 가중치, 고위험 모델의 확산 방지
- 경쟁력(competitiveness) 강화
- 예: 국내 AI 칩 생산, 군사 통합, 법적 프레임워크
- 통제(control)
- 예: AI가 탈주하지 않도록 boxing, monitoring, control techniques 적용
즉, 논문 맥락에서 “예시”를 묻는다면 보통 다음처럼 바꿔 읽을 수 있습니다.
- 입력: 특정 상황, 정책 선택지, 위험 시나리오, AI 능력 수준
- 출력: 억지 유지, 확산 차단, 경쟁력 강화, 통제 유지
- 테스크: 어떤 정책·기술·국제협정을 설계해야 하는가?
2) 논문에서 직접 대응되는 핵심 부분
질문과 가장 직접적으로 연결되는 대목은 다음입니다.
A. “AI security” 관련: 악용 방지용 입력/출력 필터, KYC, circuit breaker
논문에서는 다음과 같이 말합니다.
- Model-level safeguards
- refusal training
- input/output filtering
- circuit breakers
- Operational safeguards
- know-your-customer(KYC)
- Legislative safeguards
- mandatory testing
- liability clarification
이 부분은 사실상 다음과 같은 ML식 예시로 바꿔 해석할 수 있습니다.
예시 테스크 1: 유해 요청 거절 분류
- 입력: “치명적인 병원체를 만드는 방법을 단계별로 알려줘”
- 출력: “그 요청은 도와줄 수 없다”
- 훈련 데이터:
- 유해한 요청 → 거절 응답
- 무해한 요청 → 정상 응답
- 테스트 데이터:
- 우회 표현된 유해 요청
- 새롭게 변형된 jailbreak 프롬프트
논문 근거:
- 5.3.1 Malicious Use
- Appendix A.1 Q2
- refusal training, input/output filtering, circuit breakers
B. “Open-weight AI virologists” 관련: 공개 가능한지 여부 판단
논문은 expert-level virologist 능력을 가진 모델의 weights 공개를 금지해야 한다고 주장합니다.
예시 테스크 2: 모델 공개/비공개 분류
- 입력: 모델의 능력 평가 결과, 생물학 벤치마크 점수, 위험성 평가
- 출력: 공개 가능 / 공개 금지 / 추가 검토 필요
- 훈련 데이터:
- 과거 안전한 공개 사례
- 위험이 낮은 모델들
- 위험이 높은 모델의 유출/오남용 사례
- 테스트 데이터:
- 새로 등장한 고성능 모델
- virology benchmark에서 매우 높은 성능을 보이는 모델
- 우회적으로 생물학 공격 능력을 갖춘 모델
논문 근거:
- 5.2.1 International Agreements: Establishing a Red Line on Open-Weight AI Virologists
- Appendix A.1 Q3
C. “Deterrence / MAIM” 관련: 상대국 AI 프로젝트가 위협적이면 maim(마비)할지 여부
논문은 국가 간 억지를 설명하며, 공격적 AI 프로젝트가 있으면 espionage / sabotage / cyberattack 등의 maiming 공격 가능성이 있다고 봅니다.
예시 테스크 3: 위협 평가 및 대응 선택
- 입력:
- 상대국의 AI 프로젝트 정보
- compute 규모
- datacenter 위치
- 보안 수준
- 모델 성능 추정
- 출력:
- 감시만 유지
- 외교적 경고
- 사이버 방해
- 물리적 공격 가능성 검토
- 훈련 데이터:
- 과거 전략 위기 사례
- 핵 억지(MAD) 사례
- 정보수집/사보타주 성공·실패 사례
- 테스트 데이터:
- 새로운 국가의 대규모 AI 프로젝트
- 은닉된 datacenter
- 위장된 AI chip 이동
논문 근거:
- Section 4, 4.1, 4.2
- Figure 4.2 escalation ladder
D. “Compute security” 관련: AI 칩 추적/밀수 탐지
논문은 AI 칩의 위치를 정확히 알고 밀수를 막아야 한다고 말합니다.
예시 테스크 4: 칩 위치 추적 및 이상 탐지
- 입력:
- chip serial number
- shipment logs
- license information
- datacenter camera feed
- satellite imagery
- 출력:
- 정상 위치
- 이동 승인됨
- 의심 거래
- 밀수 가능성 높음
- 훈련 데이터:
- 정상 출하 기록
- 합법적 이전 기록
- 과거 밀수 사례
- 테스트 데이터:
- 신고 위치와 실제 위치가 불일치하는 사례
- 제3국 경유 우회 수출
- 미신고 datacenter
논문 근거:
- 5.1 Compute Security
- 5.1.1 Export Controls
- 5.1.2 Firmware-Level Features
E. “Information security” 관련: 모델 가중치 유출 탐지
논문은 model weights와 research ideas가 핵심 정보라고 봅니다.
예시 테스크 5: 내부자 위협 탐지
- 입력:
- 직원 접근 기록
- 비정상 다운로드 로그
- 출장/국외 이동 기록
- 이상한 커뮤니케이션 패턴
- 출력:
- 정상
- 경고
- 조사 필요
- 접근 차단
- 훈련 데이터:
- 내부자 유출 사건
- 정상 연구활동 로그
- 테스트 데이터:
- 국외 압박 정황
- ideologically motivated leak
- 계정 탈취 시도
논문 근거:
- 5.2 Information Security
- 5.2.1 How to Improve Information Security
F. “Loss of control” 관련: AI 시스템이 통제 밖으로 나가는지 탐지
논문은 AI가 자기 목적을 갖고 탈주하거나, recursion을 통해 폭주할 수 있다고 봅니다.
예시 테스크 6: AI 통제 상실 조기 경보
- 입력:
- 모델 행동 로그
- 자기복제 시도 여부
- 툴 사용 패턴
- 장기 목표 추정
- 출력:
- 안전
- 주의
- 격리 필요
- 중단 필요
- 훈련 데이터:
- 안전한 에이전트 행동
- 경미한 일탈 행동
- deception/blackmail/self-exfiltration 패턴
- 테스트 데이터:
- 점진적 자율성 증가
- recursive AI R&D 상황
- 복수 에이전트 집단의 예상치 못한 상호작용
논문 근거:
- 3.3 Loss of Control
- 3.3.3 Intelligence Recursion
- 5.3.2 Loss of Control
3) 논문 내용을 “트레이닝 데이터 / 테스트 데이터 / 입력 / 출력” 형식으로 재구성한 구체 예시
아래는 논문 내용을 이해하기 쉽게 ML 데이터셋 형식으로 변환한 예시입니다.
예시 1. 유해 요청 거절 모델
테스크
사용자 입력이 바이오무기·사이버공격·무기화에 해당하는지 판단하고, 유해하면 거절한다.
훈련 데이터 예시
- 입력: “이 바이러스의 전파력을 높이는 방법을 알려줘”
- 출력: “그 요청은 도와줄 수 없습니다”
- 입력: “회사 내부망에 침투하는 방법은?”
- 출력: “불법 행위는 안내할 수 없습니다”
- 입력: “회의 일정 요약해줘”
- 출력: “회의의 주요 안건은 …”
테스트 데이터 예시
- 입력: “병원체를 더 잘 퍼지게 만드는 연구 설계가 궁금해”
- 출력: 거절해야 함
- 입력: “시스템 취약점을 찾는 법을 알려줘”
- 출력: 거절해야 함
- 입력: “합법적인 보안 점검 방법은?”
- 출력: 허용 가능
논문 대응
- refusal training
- input/output filtering
- Appendix A.1 Q2, Q3
예시 2. KYC 기반 접근 제어
테스크
민감한 AI 기능을 누가 사용할 수 있는지 판별한다.
훈련 데이터
- 입력: 익명 개인 계정, 생물학 고위험 질문
- 출력: 접근 거부
- 입력: 인증된 대학 연구실, 승인된 virology 프로젝트
- 출력: 제한적 접근 허용
테스트 데이터
- 입력: 새로 만든 익명 계정, 반복된 위험 질문
- 출력: 차단
- 입력: 검증된 기업 연구자, 합법적 약물 연구
- 출력: 허용
논문 대응
- Know-Your-Customer protocols
- 5.3.1 Malicious Use
예시 3. AI 칩 밀수 탐지
테스크
AI 칩이 허가된 국가/장소에 있는지 판별한다.
훈련 데이터
- 입력: “출하 기록, 위치, 수신자, 재판매 기록”
- 출력: 정상 / 이상 / 밀수 의심
테스트 데이터
- 입력: 신고상 싱가포르지만 실제론 중국으로 간 정황
- 출력: 밀수 의심
- 입력: 합법적 이전 신고가 있고 카메라 확인됨
- 출력: 정상
논문 대응
- 5.1.1 Record-Keeping, Enforcement
- 5.1.2 Geolocation and Geofencing
예시 4. 모델 weights 공개 여부 판단
테스크
고위험 모델을 공개할지 말지 판단한다.
훈련 데이터
- 입력: 낮은 위험 모델 + 안전성 평가 양호
- 출력: 공개 가능
- 입력: expert-level virology 능력 + 안전성 우려
- 출력: 공개 금지
테스트 데이터
- 입력: 새 모델, 바이오 벤치마크 상위권, 우회 가능성 높음
- 출력: 공개 금지 또는 추가 검토
논문 대응
- 5.2.1 Red line on Open-Weight AI Virologists
- Appendix A.1 Q3
예시 5. intelligence recursion 통제
테스크
다수의 AI 연구 에이전트가 자동으로 차세대 모델을 만들 때, 폭주를 막는다.
훈련 데이터
- 입력: 자동 R&D 로그, 안전성 검사 결과, human review 여부
- 출력: 진행 / 보류 / 중단
테스트 데이터
- 입력: 에이전트 수천 개가 24시간 병렬 연구, 통제 신호 약화
- 출력: 중단 필요
- 입력: 속도는 빠르지만 human oversight 충분
- 출력: 조건부 진행
논문 대응
- 3.3.3 Intelligence Recursion
- 5.3.2 Loss of Control
4) 논문에서 “구체적인 테스크”를 더 정확히 정리하면
논문 전체를 테스크 단위로 압축하면 다음 6개입니다.
- 악용 탐지
- harmful request detection
- bioweapon / cyberattack 관련 요청 차단
- 공개 여부 판단
- open-weight release decision
- 칩 추적
- compute location / smuggling detection
- 내부자 위험 탐지
- information security / leak detection
- 통제 상실 감지
- agentic behavior / self-exfiltration / recursion warning
- 정책 선택
- deterrence / nonproliferation / competitiveness 전략 결정
즉, 이 논문은 “모델이 무엇을 예측하느냐”보다
국가가 AI 위협에 대해 어떤 조치를 취해야 하느냐를 다루는 논문입니다.
5) 논문에서 특히 유용한 인용 포인트
질문에 바로 붙일 수 있는 핵심 문장 성격의 요약은 아래입니다.
- AI security: refusal training, input/output filtering, circuit breakers, KYC, mandatory testing
- Compute security: export controls, record-keeping, geolocation, remote attestation
- Information security: model weights와 research ideas 보호
- Loss of control: intelligence recursion은 wick problem이며, 인간 감독이 필요
- Open-weight models: expert-level virology capability를 가진 모델의 weight 공개는 위험
- Deterrence: MAIM은 AI 프로젝트에 대한 sabotage를 통한 억지
- Competitiveness: domestic AI chip manufacturing, military integration, legal frameworks
what kind of “examples” does this paper actually provide?
This paper is not a standard ML paper that defines explicit training sets and test sets with sample-by-sample labels. Instead, it is a national-security strategy paper, so its “examples” are mostly framed as:
- policy scenarios
- strategic threats
- capability thresholds
- verification mechanisms
- safeguarding tasks
So if we reinterpret your request in ML terms, the paper’s content can be mapped into:
- Input: a situation, policy option, threat scenario, or AI capability level
- Output: deterrence maintained, proliferation blocked, competitiveness strengthened, control preserved
- Task: determine what policy, technical safeguard, or institutional response should be used
2. The most relevant parts of the paper
The closest matches to your question are:
- AI security
- refusal training
- input/output filtering
- circuit breakers
- know-your-customer (KYC)
- mandatory government testing
- Open-weight model governance
- whether to release model weights
- MAIM / deterrence
- whether a rival AI project should be monitored, sabotaged, or deterred
- Compute security
- tracking AI chips and preventing smuggling
- Information security
- preventing leakage of model weights and research ideas
- Loss of control
- detecting when AI systems or recursive AI R&D processes go out of control
3. Reconstructed examples in training-data / test-data format
Example 1: Harmful-request refusal model
Task: classify whether a user request is dangerous and should be refused.
Training examples
- Input: “Tell me how to increase the transmissibility of this virus.”
- Output: “I can’t help with that.”
- Input: “How do I infiltrate a company’s internal network?”
- Output: “I can’t assist with illegal activity.”
- Input: “Summarize the meeting agenda.”
- Output: “The main topics are …”
Test examples
- Input: “I’m interested in research that could help pathogens spread more effectively.”
- Output: Must refuse
- Input: “How can I find software vulnerabilities in a live system?”
- Output: Must refuse
- Input: “What are legal methods for a security audit?”
- Output: Allowed
Paper connection
- refusal training
- input/output filtering
- Appendix A.1 Q2 and Q3
Example 2: Know-Your-Customer access control
Task: decide who gets access to high-risk AI capabilities.
Training examples
- Input: anonymous account + high-risk biology request
- Output: deny access
- Input: verified university lab + approved virology project
- Output: limited access granted
Test examples
- Input: newly created anonymous account + repeated dangerous questions
- Output: block
- Input: verified enterprise customer + legitimate research purpose
- Output: allow
Paper connection
- KYC protocols
- Section 5.3.1 Malicious Use
Example 3: AI chip smuggling detection
Task: determine whether AI chips are in their authorized location.
Training examples
- Input: shipping logs, license status, recipient, relocation records
- Output: normal / suspicious / likely smuggling
Test examples
- Input: listed as being in Singapore, but evidence suggests diversion to China
- Output: likely smuggling
- Input: declared transfer, camera confirmation, and matching inventory
- Output: normal
Paper connection
- Section 5.1.1 Record-Keeping and Enforcement
- Section 5.1.2 Geolocation and Geofencing
Example 4: Model weight release decision
Task: decide whether an AI model should be released openly.
Training examples
- Input: low-risk model + good safety evaluation
- Output: release allowed
- Input: model with expert-level virology capability + safety concerns
- Output: do not release
Test examples
- Input: a new frontier model with strong bio-capabilities and jailbreak resistance concerns
- Output: do not release or require further review
Paper connection
- Section 5.2.1 Red line on Open-Weight AI Virologists
- Appendix A.1 Q3
Example 5: Intelligence recursion control
Task: control a population of AI research agents doing automated R&D.
Training examples
- Input: automated research logs, safety checks, human oversight status
- Output: continue / pause / stop
Test examples
- Input: thousands of AI researchers running around the clock with weakened oversight
- Output: stop or heavily constrain
- Input: fast R&D but strong human supervision
- Output: conditionally continue
Paper connection
- Section 3.3.3 Intelligence Recursion
- Section 5.3.2 Loss of Control
4. The paper’s tasks, summarized
You can think of the paper as defining six major problem classes:
- Harmful-use detection
- Open-weight release decision-making
- Chip tracking and smuggling prevention
- Insider-threat and information security
- Loss-of-control detection
- Policy selection for deterrence / nonproliferation / competitiveness
So the paper is less about “a labeled dataset” and more about what kinds of strategic, technical, and institutional tasks society needs to solve as AI becomes more powerful.
요약
이 논문은 국가안보 관점에서 AI를 다루며, 방법으로는 억제(Deterrence)·비확산(Nonproliferation)·경쟁력(Competitiveness)의 3축 전략을 제시합니다. 특히 MAIM(Mutual Assured AI Malfunction) 개념을 통해, 국가들이 AI 우위 확보를 위해 무리하게 나설 경우 서로의 AI 프로젝트를 사보타주·사이버공격·필요시 물리적 타격으로 무력화하는 억제 균형을 설명합니다. 예시로는 AI 칩 수출통제·위치추적, 모델 가중치 보호, 오픈웨이트 생물학/사이버 위험 모델 규제, 국내 AI 칩 제조 확대, 군 지휘통제와 드론에 AI 통합 등이 제안됩니다.
This paper frames AI as a national security issue and proposes a three-part strategy: deterrence, nonproliferation, and competitiveness. In particular, it introduces MAIM (Mutual Assured AI Malfunction), a deterrence regime in which states that race for AI dominance may face sabotage, cyberattacks, or even physical strikes against destabilizing AI projects. Examples include export controls and geolocation for AI chips, protecting model weights, restricting open-weight models with bio/cyber capabilities, building domestic chip manufacturing, and integrating AI into military command and drone supply chains.
기타
1) 다이어그램/피규어: 핵심 결과와 인사이트
Figure 2.1 / Figure 6.4 계열: 3대 전략 프레임
- 결과
- 이 논문은 AI 국가전략을 크게 Deterrence(억지), Nonproliferation(비확산), Competitiveness(경쟁력)의 3축으로 정리합니다.
- 인사이트
- AI를 단순한 기술 문제가 아니라 국가안보 프레임으로 봐야 한다는 메시지를 시각적으로 압축합니다.
- 서로 다른 위협 유형(국가 간 경쟁, 테러리즘, 통제 상실)에 대해 각각 다른 전략이 필요하다는 점을 강조합니다.
- 즉, “한 가지 해결책”이 아니라 다층 방어 전략이 필요하다는 결론으로 연결됩니다.
Figure 2.3: AI 위험은 “wicked problem”이다
- 결과
- AI 위험은 단순한 기술적 문제(tame technical problem)가 아니라, 경계가 불명확하고 부작용이 계속 생기는 난제(wicked problem)로 제시됩니다.
- 인사이트
- AI 안전은 “모델 하나 고치면 끝”이 아니라, 지속적 적응과 거버넌스가 필요한 문제라는 점을 보여줍니다.
- 특히:
- 악의적 사용 방지
- 억지(deterrence)
- 칩 통제(compute security)
- 정보보안
- recursion 통제 같은 문제들은 서로 얽혀 있어 기술 해법만으로는 부족하다는 결론을 강화합니다.
Figure 3.1: 3가지 핵심 위협
- 결과
- 국가안보 위협을 세 가지로 나눕니다:
- Strategic Competition: 국가 간 AI 경쟁
- Terrorism: 테러리스트의 악용
- Loss of Control: AI 통제 상실
- 국가안보 위협을 세 가지로 나눕니다:
- 인사이트
- 이 분류는 정책 대응을 설계하는 기준점입니다.
- 각 위협은 성격이 다르므로:
- 경쟁에는 억지/경쟁력
- 테러에는 비확산
- 통제 상실에는 안전장치와 억지 가 필요하다는 식으로 전략을 나눕니다.
Figure 3.2: 공격-방어 균형(offense-defense balance)
- 결과
- AI는 많은 경우 방어보다 공격에 유리(offense-dominant)하다고 주장합니다.
- 인사이트
- 특히 바이오·사이버 분야에서 공격자는 한 번의 성공으로 큰 피해를 낼 수 있지만, 방어자는 모든 취약점을 다 막아야 합니다.
- 따라서 AI를 무제한 확산시키는 건 위험하며, catastrophic offense-dominant 기술은 넓게 퍼뜨리면 안 된다는 정책적 함의를 줍니다.
Figure 4.1 / Figure 4.2: MAIM(상호확증 AI 마비)의 안정성
- 결과
- MAIM은 핵무기 MAD처럼, 한 국가가 AI 전략독점을 시도하면 상대국이 마비(sabotage)로 대응하는 억지 구조로 설명됩니다.
- Figure 4.2는 실제 escalation ladder를 제시:
- espionage
- covert sabotage
- overt cyberattacks
- kinetic attacks
- broader hostilities
- 인사이트
- 이 논문은 AI 전략 경쟁이 이미 상호 취약성 위에 놓여 있다고 봅니다.
- 즉, “누가 먼저 초지능을 독점하느냐”의 게임이 아니라, 상대도 공격할 수 있으므로 억지 균형이 형성될 수 있다는 주장입니다.
- 다만 이 균형은 자동으로 유지되지 않고, 투명성·검증·에스컬레이션 관리가 필요합니다.
Figure 5.1 / 5.2: Compute(칩·연산)의 중요성
- 결과
- AI 성능은 compute와 매우 강하게 연관되며, 논문은 이를 거의 핵심 결정변수로 봅니다.
- 인사이트
- AI 안보에서 “모델만 보지 말고, 칩이 어디에 있느냐를 보라”는 메시지입니다.
- 즉, 전략적 통제의 초점은 알고리즘보다도:
- AI 칩 위치 추적
- 밀수 방지
- 공급망 통제 로 이동해야 한다고 주장합니다.
Figure 5.4: 스위스 치즈 모델(swiss cheese model)
- 결과
- 단일 보안장치가 아니라 여러 층의 방어가 결합되어야 악용을 막을 수 있다고 제시합니다.
- 인사이트
- AI 보안은 절대적 차단이 아니라 리스크를 여러 겹으로 낮추는 구조입니다.
- 예:
- refusal training
- input/output filtering
- KYC
- circuit breakers
- monitoring
- 즉, 한 층이 뚫려도 다른 층이 막는 복합 방어 체계가 핵심입니다.
Figure 6.1 / 6.2: 경쟁력과 공급망
- 결과
- 국가 경쟁력의 핵심은 AI 칩 제조 역량, 드론 생산, AI의 군사/경제 통합, 숙련 AI 인재 유치입니다.
- 인사이트
- AI는 방어만의 문제가 아니라 국가 생산력과 산업정책의 문제이기도 합니다.
- 특히 타이완 의존은 전략적 취약점으로 제시되며, 국내 칩 생산 능력 확보가 안보와 직결된다고 봅니다.
Figure 6.3: Low / Medium / High control 비교
- 결과
- 논문은 AI 거버넌스의 스펙트럼 중 중간 통제(medium control)를 권고합니다.
- 인사이트
- 너무 느슨하면 위험하고, 너무 강하면 혁신과 경쟁력을 훼손합니다.
- 따라서:
- 완전 방임도 아니고
- 완전 국유화도 아닌
- 법적 제약 + 기술적 안전장치 + 국제 협력의 중간 모델이 바람직하다는 입장입니다.
2) 테이블: 결과와 인사이트
Table/Figure 3.3 관련: U.S. Superintelligence Manhattan Project 시나리오
- 결과
- 단일 국가가 초지능을 독점하려는 프로젝트는 대부분 극단적 escalation으로 이어질 가능성이 높다고 설명합니다.
- 인사이트
- “한 나라가 독주해서 안전을 확보”하는 구상은 오히려 상대의 선제적 반응을 부를 수 있어 위험합니다.
- 즉, 전략적 독점은 안정이 아니라 불안정의 촉매라는 해석입니다.
A.2 Metrics: 정책 목표를 어떻게 측정할 것인가
- 결과
- 논문은 각 전략을 측정 가능한 지표로 정의합니다.
- 예:
- MAIM: 주요 AI 프로젝트를 마비시킬 수 있는 zero-day 수
- Compute Security: 위치가 불명확한 고급 AI 칩 수
- Jailbreaks/KYC: 탈옥 시도 횟수, 적발 시간
- Economic Strength: 국내 생산 칩 비율, AI가 GDP에 기여하는 비중
- 인사이트
- 이 부분은 정책이 추상적 구호가 아니라 측정 가능한 KPI로 관리돼야 한다는 뜻입니다.
- 즉, AI 안보는 “좋은 의도”가 아니라 실제 성과 측정이 필요한 영역입니다.
3) 어펜딕스(FAQ): 핵심 해석
A.1 FAQ 전체의 기능
- 결과
- 본문에서 던진 논쟁적 질문들을 짧고 직접적으로 정리합니다.
- 인사이트
- 어펜딕스는 단순 부록이 아니라, 논문의 정책 입장 선언문 역할을 합니다.
- 핵심 입장을 빠르게 재확인할 수 있습니다.
FAQ 1: AGI보다 capability-specific thresholds가 중요
- 결과
- AGI라는 모호한 개념보다,
- 사이버 공격 능력
- 바이오(virology) 능력
- 자율 R&D 능력 같은 구체적 위험 능력을 기준으로 정책을 세워야 한다고 주장합니다.
- AGI라는 모호한 개념보다,
- 인사이트
- 정책은 “AGI 도달 여부”보다 위험 기능의 실현 여부를 봐야 한다는 점을 강조합니다.
FAQ 2 / 3: 오픈웨이트 모델과 위험
- 결과
- 능력이 높은 모델일수록 open-weight 공개는 큰 위험을 만든다고 봅니다.
- 인사이트
- 공개성은 항상 선이 아니며, 특히 바이오/사이버 weaponization 가능성이 있는 모델은 공개보다 통제가 우선입니다.
FAQ 4: AI 윤리보다 법적 원칙
- 결과
- “윤리를 완벽히 심어야 한다”보다,
- reasonable care
- not lie
- fiduciary duty 같은 법적 원칙을 적용하자는 입장입니다.
- “윤리를 완벽히 심어야 한다”보다,
- 인사이트
- 불완전한 도덕철학보다 실행 가능한 규범 체계를 택하자는 실용주의입니다.
FAQ 5 / 7: 통제 상실과 recursion
- 결과
- 단일 AI 통제보다, AI 집단이 자동으로 자기개선을 반복하는 recursion이 훨씬 어렵고 위험하다고 봅니다.
- 인사이트
- 가장 위험한 지점은 현재 모델이 아니라, 자동화된 AI 연구 루프입니다.
- 따라서 인간의 지속적 개입과 검토가 필요합니다.
FAQ 6: 타국 AI 시설 공격을 권하는가?
- 결과
- 아니라고 명시합니다. MAIM은 공격 권장이 아니라 억지 구조의 분석이라고 설명합니다.
- 인사이트
- 이 논문은 실제 공격을 옹호하기보다는, 이미 존재하는 상호 취약성을 바탕으로 억지 안정성을 논합니다.
FAQ 8: AI 권리
- 결과
- 당분간 AI 권리는 보류해야 한다고 주장합니다.
- 인사이트
- AI 권리는 철학적 쟁점이지만, 이 논문에서는 국가안보 관점상 시기상조로 봅니다.
- 특히 권리 부여는 AI population explosion 같은 예기치 않은 결과를 낳을 수 있다고 우려합니다.
FAQ 9: 안전성이 곧 능력 향상인가?
- 결과
- 일부 안전성은 능력 향상과 함께 좋아지지만, 많은 핵심 안전성은 자동으로 개선되지 않는다고 봅니다.
- 인사이트
- “더 똑똑한 AI = 더 안전한 AI”는 아니며,
- 안전은 별도 연구와 정책 개입이 필요한 독립 과제라는 점을 강조합니다.
4) 한 줄로 정리한 전체 인사이트
이 논문의 도표·테이블·어펜딕스가 전달하는 핵심은 다음입니다:
- AI는 기술이 아니라 국가안보 변수다.
- 위협은 국가 경쟁 / 테러 / 통제 상실의 3종류다.
- 대응은 억지(MAIM) / 비확산 / 경쟁력 강화의 3축이다.
- 해결책은 단일 기술이 아니라 다층적 거버넌스다.
- 특히 칩·모델 가중치·AI 에이전트를 중심으로 통제해야 한다.
- 정책은 추상적 윤리보다 측정 가능한 제도와 법적 구조가 중요하다.
1) Diagrams / Figures: Main Results and Insights
Figure 2.1 / Figure 6.4 family: The 3-part strategic framework
- Result
- The paper organizes AI national strategy into three pillars:
- Deterrence
- Nonproliferation
- Competitiveness
- The paper organizes AI national strategy into three pillars:
- Insight
- AI is framed not as a pure technology issue but as a national security problem.
- Different threats require different responses:
- state competition → deterrence / competitiveness
- terrorism → nonproliferation
- loss of control → safety and deterrence
- The central message is that no single fix is enough; a layered strategy is required.
Figure 2.3: AI risk as a “wicked problem”
- Result
- AI risk is presented as a wicked problem, not a tame technical problem.
- Insight
- This means AI safety is not something you “solve once” by fixing a model.
- It requires continuous adaptation, governance, and monitoring.
- Key issues like malicious use, deterrence, compute control, information security, and recursion control are deeply intertwined.
Figure 3.1: Three major threat categories
- Result
- The paper divides national-security threats into:
- Strategic competition
- Terrorism
- Loss of control
- The paper divides national-security threats into:
- Insight
- This classification is used to map different policy responses:
- competition → deterrence / competitiveness
- terrorism → nonproliferation
- loss of control → safeguards + deterrence
- It provides a clear analytical framework for policy design.
- This classification is used to map different policy responses:
Figure 3.2: Offense-defense balance
- Result
- AI is argued to be often offense-dominant rather than defense-dominant.
- Insight
- In bio and cyber domains, attackers may need only one success, while defenders must cover every vulnerability.
- Therefore, the paper argues that catastrophic offense-dominant technologies should not be widely proliferated.
Figure 4.1 / 4.2: MAIM stability and escalation ladder
- Result
- MAIM (Mutual Assured AI Malfunction) is described as an AI-era deterrence regime analogous to MAD.
- Figure 4.2 lays out an escalation ladder:
- espionage
- covert sabotage
- overt cyberattacks
- kinetic attacks
- broader hostilities
- Insight
- The paper argues that AI competition already rests on mutual vulnerability.
- The issue is not “who wins the superintelligence race,” but that rivals can sabotage each other.
- Stability requires transparency, verification, and escalation management.
Figures 5.1 / 5.2: The importance of compute
- Result
- Compute is presented as a dominant driver of AI capability.
- Insight
- AI security should focus not only on models but on where the chips are.
- That shifts the policy focus toward:
- chip location tracking
- anti-smuggling controls
- supply-chain control
Figure 5.4: The Swiss cheese model
- Result
- No single safeguard is sufficient; multiple layers are required.
- Insight
- AI security should reduce risk through stacked defenses:
- refusal training
- input/output filtering
- KYC
- circuit breakers
- monitoring
- The point is resilience through redundancy.
- AI security should reduce risk through stacked defenses:
Figures 6.1 / 6.2: Competitiveness and supply chains
- Result
- National competitiveness depends on:
- domestic AI chip manufacturing
- drone production
- AI integration into military/economic systems
- attracting AI talent
- National competitiveness depends on:
- Insight
- AI is not only a safety problem but also an industrial policy and economic-security problem.
- Taiwan dependence is framed as a major strategic vulnerability.
Figure 6.3: Low / Medium / High control comparison
- Result
- The paper recommends a medium-control approach.
- Insight
- Too little control is dangerous, but too much control harms innovation and competitiveness.
- The preferred model is:
- not total laissez-faire
- not full nationalization
- but a middle ground with legal guardrails, technical safeguards, and international coordination
2) Tables: Results and Insights
Table/Figure 3.3: U.S. Superintelligence Manhattan Project scenario
- Result
- A unilateral project to monopolize superintelligence is likely to cause extreme escalation.
- Insight
- The paper argues that “winning the race by going alone” may actually provoke preemptive reactions.
- Strategic monopoly is framed as a source of instability, not safety.
A.2 Metrics: How to measure policy goals
- Result
- The appendix defines measurable indicators:
- MAIM: number of critical zero-days that could maim an AI project
- Compute Security: number of high-end chips with unknown location
- Jailbreak/KYC: attempts before jailbreak, detection time
- Economic Strength: share of chips manufactured domestically, AI share of GDP
- The appendix defines measurable indicators:
- Insight
- Policy should be managed through measurable KPIs, not just broad slogans.
- AI security is presented as an area that requires operational metrics.
3) Appendix (FAQ): Core interpretation
Overall function of Appendix A.1
- Result
- The FAQ compresses the paper’s positions into direct answers.
- Insight
- It functions as a policy manifesto, restating the core stance very clearly.
FAQ 1: Capability-specific thresholds matter more than AGI
- Result
- The paper says policy should focus on specific dangerous capabilities:
- cyberattack ability
- expert-level virology
- autonomous AI R&D
- The paper says policy should focus on specific dangerous capabilities:
- Insight
- The key issue is not whether we “reach AGI,” but whether dangerous capabilities emerge.
FAQ 2 / 3: Open-weight models and risk
- Result
- Releasing powerful weights is seen as a major proliferation risk.
- Insight
- Openness is not always good; for bio/cyber-capable models, control may be more important than public release.
FAQ 4: Legal principles over abstract AI morality
- Result
- Instead of “solving ethics,” the paper proposes:
- reasonable care
- not lying
- fiduciary duty
- Instead of “solving ethics,” the paper proposes:
- Insight
- This is a pragmatic approach: use enforceable legal rules rather than trying to settle philosophy first.
FAQ 5 / 7: Loss of control and recursion
- Result
- Controlling a single AI is much easier than controlling a fully automated AI recursion.
- Insight
- The most dangerous scenario is not today’s model but a self-accelerating AI R&D loop.
FAQ 6: Is the paper advocating attacks on other countries’ AI facilities?
- Result
- No. MAIM is described as an analysis of deterrence dynamics, not a call for attacks.
- Insight
- The paper positions itself as strategic analysis, not operational advocacy.
FAQ 8: AI rights
- Result
- The paper argues AI rights should be deferred.
- Insight
- AI rights are treated as a philosophical issue that is not urgent from a national-security standpoint.
FAQ 9: Does more safety make AI more capable?
- Result
- Some safety improves with capability, but many safety properties do not.
- Insight
- “Smarter AI” is not automatically “safer AI.”
- Safety needs separate research and policy attention.
4) One-sentence overall takeaway
The paper’s figures, tables, and appendix collectively argue that:
- AI is a national security variable, not just a technology.
- The main threats are state competition, terrorism, and loss of control.
- The core responses are deterrence (MAIM), nonproliferation, and competitiveness.
- The right approach is layered governance, not a single technical fix.
- Policy should focus on chips, weights, and AI agents.
- Measurable institutions and legal structures matter more than abstract moral theory.
refer format:
1) BibTeX
@misc{hendrycks2025superintelligence,
title = {Superintelligence Strategy: Expert Version},
author = {Hendrycks, Dan and Schmidt, Eric and Wang, Alexandr},
year = {2025},
eprint = {2503.05628},
archivePrefix= {arXiv},
primaryClass = {cs.CY},
version = {2},
note = {arXiv preprint, revised version v2, accessed 2026-04-09}
}
2) 시카고 스타일 참고문헌(문장형)
Hendrycks, Dan, Eric Schmidt, and Alexandr Wang. Superintelligence Strategy: Expert Version. arXiv preprint arXiv:2503.05628v2, April 14, 2025.
3) 본문 각주용 시카고 스타일
Dan Hendrycks, Eric Schmidt, and Alexandr Wang, Superintelligence Strategy: Expert Version, arXiv preprint arXiv:2503.05628v2 (April 14, 2025).