짧은 요약(Abstract) :    
* AMR-meta는 DB/alignment에 의존하지 않고 k-mer 통해 feature 추출,  
이 feature에서 matrix factorization 사용으로 meta 추출,  
이 meta 사용하여 제약있는 regression 모델 만듬..  
(하지만 regression 자체가 데이터 의존적이므로 이 주장은 내가 볼 때는 합당하지 않음  )  
* 이 meta는 multi-level gene diversity captrue함(주장)  
* 그들의 주장에 따르면 meta는 multi-level gene diversity를 capture하고 학습에 이용되며 결론적으로 AMR여부 알려줄 수 있음(학습때 nonAMR도 사용-negative)  
* DB 불안전성과 nonAMR과 동일기원이거나 동형기원인 것들의 존재로인해 방해받음, 이걸 해소해 본 거라고 함    
* AMR-meta는 메타지노믹 샷건 시퀀싱으로부터 얻은 DNA 서열과 데이터를 분석하고 항생제 내성있는지 알려줌(AMR+nonAMR같이 있는 곳에서)  
* 비교군으로 AMR++, DeepARG, Meta-MARC, 이들의 ensemble(voting) 선정했고 cross validation시 median f-score가 본 모델의 경우 0.7(0.2-0.9)로 비교군 보다 좋다고 주장  
** 특히 semi-synthetic metagenomic data에서 average가 1.3 fold hit rate로 높았다고 함  
** 속도는 DeepARG보다 3배 빠르고, Meta-MARC의 30배이며 AMR++와는 비슷  
* 결론적으로 AMR-meta는 빠르고 정확한데, non AMR negative set을 써서 sensitivity와 specificity도 향상되었음  
** 다만 AMR 예측/분류를 위한 용어 체계등이 표준화되지 않아 비교를 위한 벤치마크가 필요함을 인정  

한줄 요약:
k-mer와 메타피쳐 접근 방식을 결합하여 데이터베이스나 정렬에 의존하지 않는 새로운 방법인 AMR-meta를 제시

단어정리

hampered: 방해되다
homology: 동일기원성-구조들이 공통의 조상으로부터 유래
homoplasy: 동형기원성-서로 다른 종에서 비슷해 보이는 구조나 특성이 독립적으로 진화했다는 것 의미
PATRIC: Pathosystems Resource Integration Center
Pathosystems: 병원체
LASSO: Least Absolute Shrinkage and Selection Operator-LASSO는 회귀 모델에서 중요한 변수를 선택하고, 불필요하거나 중요하지 않은 변수의 계수를 0으로 만듬/ LASSO는 회귀 계수의 절대값의 합에 페널티를 부과함으로써 모델의 과적합을 방지
** LASSO는 특히 변수가 많고 서로 상관 관계가 있는 경우, 또는 관측치보다 변수가 더 많은 경우에 유용
** LASSO를 사용함으로써 보다 단순하고, 해석하기 쉬우며, 예측력이 높은 모델을 생성할 수 있음
collate: 함께 합치다
k-mer spectrum: 주어진 생물학적 서열에서 발생하는 모든 가능한 k-mer의 집합
discrimination performance: 구분 성능
oncology: 종양학
proteomics: 프로테오믹스-생체 내에서 발현되는 모든 단백질의 대규모 연구
Putative: 추정되는, 가정된
house keeping gene: 세포 생존에 필수불가결한 유전자로 어떠한 상황에서도 발현되는 유전자
vertebrate: 척추 동물
Flanking region: 유전학에서 특정 DNA 시퀀스나 유전자 옆에 위치하는 DNA 영역, 이 영역은 특정 유전자 또는 중요한 유전적 요소의 양쪽 끝, 즉 상류(upstream)와 하류(downstream)에 위치할 수 있음
(Upstream) Flanking Region: 유전자의 시작 부분(프로모터 영역) 앞에 위치하는 DNA 시퀀스. 이 영역은 유전자의 발현을 조절하는 데 중요한 역할을 하며, 여기에 위치한 조절 요소들은 유전자의 전사를 시작하거나 조절하는 데 관여
(Downstream) Flanking Region: 유전자의 끝 부분 뒤에 위치하는 DNA 시퀀스. 이 영역은 유전자의 안정성, 전사 종료 및 유전자 후처리 과정에 영향
elongating: 길게 늘리다, 확장하다
fosmid: 특정한 종류의 클로닝 벡터
** 벡터는 DNA 조각을 쉽게 다루고, 특정한 세포에 삽입하기 위해 사용되는 DNA 분자
** 포스미드는 박테리오파지 λ(람다) 벡터에서 유래한 벡터로, 대략 35-40kb(킬로베이스) 크기의 DNA 조각을 클로닝하기 위해 사용
Escherichia coli: 대장균
shotgun metagenomic data: 메타게놈 시퀀싱은 환경 샘플(예: 토양, 물, 인체 미생물군)에서 추출한 DNA의 전체 시퀀스를 무작위로 단편화하여 시퀀싱
** 다양한 유전자의 동시 분석, 미생물 다양성과 기능 분석
** 샷건은 다수의 작은 산탄을 발사하여 넓은 범위를 타격하는 무기입니다. 마찬가지로, 샷건 메타게놈 시퀀싱은 환경 샘플(예: 토양, 물, 인체 미생물군)에서 추출한 DNA를 무작위로 작은 조각으로 분해한 후, 이 조각들을 독립적으로 동시에 시퀀싱합니다. 이 방식은 많은 수의 다양한 DNA 조각들을 동시에 커버함으로써, 샘플 내에 존재하는 다양한 미생물의 유전적 정보를 광범위하게 탐색하고 분석할 수 있게 함
** 샷건이 발사될 때 많은 산탄이 넓게 퍼지듯이, 샷건 시퀀싱은 많은 수의 DNA 조각들을 넓게 분석하는 특성을 반영하여 붙여진 것
s-score: 표준화(Standardization)-데이터를 표준화하여 평균이 0이고 표준편차가 1이 되도록 조정. 이를 통해 데이터 포인트들이 동일한 척도에 있도록 만듬, 이를 토대로 각 유전자의 발현 차이를 계산, 데이터를 표준화하여 서로 다른 실험 조건이나 처리가 얼마나 차이를 만들어내는지 평가
concordance: 일치, 조화

알아야할 것들

dataset source: CARD, MEGRes, ARDB, uniprot(?, manually)
본 논문은 raw short-read AMR classification에 focus
본 논문에서는 MEGARes 2.0에서 gene 합침(근데 house keeping gene-생존 필수 유전자는 뺌)
MEGARes에서 simulation해서 10배로 뿔림
short read 만들기 위해 InSilicoSeq 사용( Illlumina’s Noa Seq 시뮬레이션 )
input: end paired reads, output: one of the 13 AMR classes

Introduction

사용하는 메타피쳐는 주로 k-mer 스펙트럼의 공간 변환을 통해 식별되는 여러 독립적인 k-mer 조합들임

Methods

k-mer와 k-mer의 행렬분해 기반(이걸 메타라 칭함)
내부 데이터셋에서 AMR-meta를 훈련하고 테스트하며, 여기에는 AMR 유전자와 비-AMR 유전자가 포함
다른 도구들과 비교하기 위해 PATRIC에서 추출한 박테리아 genome 데이터를 사용하여 두 가지 반합성(세미-신테틱) 외부 데이터셋을 생성
이러한 데이터셋은 특정 분자 또는 항생제 클래스에 대한 약물 저항/민감성을 대표하며, PSSmol과 PSScla로 명명
** mol은 moclue(분자 구조), cla는 class(항생제 클라스)

Feature encoding and prediction models

AMR-meta k-mer LASSO module

AMR-meta의 기본 모델은 로지스틱 회귀분석을 사용
k-mer 스펙트럼의 고차원성을 고려하여, LASSO(Least Absolute Shrinkage and Selection Operator) 정규화를 사용하여 특징 공간을 줄이고, 교차 검증을 통해 축소 연산자를 최적화

AMR-meta metafeature ridge module

AMR-meta의 k-mer LASSO 회귀에서 발생할 수 있는 문제 중 하나는 단일 선형 k-mer 특징 조합이 데이터셋 전체의 분산을 설명하기에 충분하지 않을 수 있음
이 문제를 해결하기 위해, AMR-meta는 k-mer 스펙트럼의 공간 변환과 함께 차원 축소를 통해 여러 개의 독립적인 k-mer 조합을 식별하는 방식을 사용
여러 선형 조합을 사용하는 것이 한 가지 방법으로, 예를 들어 주성분 분석의 첫 번째 mth 벡터 등이 이에 해당
이를 ridge regression 함(기본 선형회귀형인데 L2 규제)
릿지 회귀는 회귀 계수의 제곱에 페널티를 부과하여 과적합을 방지하고, 모델의 일반화 능력을 높임

Training strategy

AMR genes

MEGARes 2.0 사용
** 단일 점 변이를 통해 내성을 부여하는 가정 유전자는 이 데이터 세트에서 제외->모델 정확도 높임

Putative non-AMR bacterial genes

RefSeq 데이터베이스에서 추정된 비-AMR(항생제 내성이 없는) 박테리아 유전자들을 포함
BLAST를 사용하여 MEGARes에 매칭되지 않는 RefSeq의 박테리아 유전자 1000개를 선택
이 유전자 세트는 MEGARes 내의 AMR 유전자와 높은 유전적 다양성을 가지지만, 핵산 구성은 전적으로 박테리아

AMR-homologous human and vertebrate genes

AMR 유전자와 상당한 유사성을 공유하는 유전자를 모방하기 위해 데이터셋을 구성-척추동물 포유류”와 “척추동물 기타” 조립체에서 AMR 유사 유전자 및 유전자 조각을 선택하여 만듬
이러한 접근 방식은 박테리아 AMR 유전자와 유사하지만 실제로 항생제 내성을 제공하지 않는다고 가정되는 유전자를 포함
실제 AMR 유전자와 유사하지만 기능적으로 내성을 제공하지 않는 유전자들을 구별하는 능력을 향상

k-mer-based and metafeature modeling

연구에서는 훈련 데이터셋에 있는 유전자들로부터 모든 k-mer를 고려하고, 이를 다양한 k 값(13부터 77까지)을 사용하여 계산. k의 최적값은 내부 검증 성능에 따라 점진적으로 선택되며, 성능이 감소할 때 선택이 중단
훈련 샘플을 클래스별로 구분한 후, 특정 클래스에서 주어진 컷오프 빈도(f)보다 낮은 모든 k-mer를 제거

Simulation of metagenomic short-read data for training

MEGARes 각 클래스에 대해, 원래 전체 유전자 데이터의 10배 베이스 커버리지를 제공하는 단독 읽기(short-read) 데이터셋을 생성
외부 검증을 위해, 훈련 세트와 유사하게 만들어진 2개의 반합성(semi-synthetic) 데이터셋과 2개의 기능적 메타게놈믹 실험에서 파생된 데이터셋을 사용
외부 테스트 세트에서 AMR 및 k-mer 스펙트럼의 발생 빈도가 훈련 데이터와 균형을 이루지 않을 수 있기 때문에, 내부 검증 데이터셋과 k-mer 및 메타피쳐 벡터가 비어 있는 샘플을 사용하여 k-mer 및 메타피쳐 확률 임계값을 재조정. 이 비율은 1:0.05에서 1:10 사이에서 최적화되며, 교정 목표를 충족하는 첫 번째 비율이 선택

External validation

Semi-synthetic datasets

Semi-synthetic 데이터셋은 PATRIC(Pathosystems Resource Integration Center)에서 다운
연구팀은 Clinical & Laboratory Standards Institute(CLSI)의 표준에 따라 항생제 내성 또는 민감성으로 주석이 달린 게놈만을 보존
PATRIC의 항생제 명명법이 MEGARes의 분류 체계와 정확히 일치하지 않기 때문에, 연구팀은 각 PATRIC 약물 주석을 MEGARes 클래스에 연결하는 조회 테이블을 작성
PSS_mol은 PATRIC 데이터베이스에서 얻은 전체 박테리아 게놈을 기반으로 하며, 각 게놈은 특정 분자에 대한 저항성 또는 감수성이 실험적으로 테스트된 결과에 근거하여 라벨링됩니다. 이 데이터셋은 분자별로 구분되며, 각 분자는 하나의 특정 항생제를 대표
PSS_cla 역시 PATRIC 데이터베이스에서 얻은 전체 박테리아 게놈을 기반으로 하지만, 이 경우 각 게놈은 항생제 클래스별로 저항성 또는 감수성을 나타내는 라벨을 가짐

Functional metagenomics data

환경 샘플(예: 토양, 물, 장내 미생물군)에서 추출한 DNA의 기능적 특성을 분석하는 데 중점
이 연구에서 사용된 기능성 메타게놈 데이터는 두 개의 데이터셋, ‘Pediatric’와 ‘Soil’에서 파생
박테리아 벡터에 클로닝하는 과정을 포함
‘Pediatric’과 ‘Soil’ 데이터셋은 대장균(Escherichia coli DH10B)에서 유래한 포스미드를 포함

Software and hardware set-up

BLAST, R, 그리고 Bioconductor가 포함
k-mer LASSO 및 메타피쳐 회귀 분석은 R, Bash, 그리고 C++ 언어를 사용하여 개발
기능성 메타게놈 데이터셋은 NCBI의 sra-toolkit을 사용하여 다운로드
InSilicoSeq 사용하여 read gen

Results

AMR-meta provides competitive prediction performance on multiple AMR classes

13개 데이터셋 생성함, 10개 미만 클래스는 제외,best k는 5에서 13사이
성능은 f-measure 0.7(0.2-0.9), median f-measure는 0.4(0.2-0.7)

AMR-meta generlizes robustly on external, semi-syntehtic datasets

PSS_mol은 12개의 molecule labels 붙음
median s-score에서 좋은 결과 보임

AMR-meta predictions complement those of existing algorithms

제일 이해 안 가는 부분이지만… spearman correlation으로 다른 경쟁 모델들끼리의 유사성을 체크함
** DeepARG, Meta-MARC, AMR++는 매우 밀접한 관계임… ** 본 모델과는 밀접하진 않음…?
** 정확도는 본 모델이 제일 높음….(부족한 부분 매꿔줄 수 있다는 걸로 해석하는 듯)

AMR-meta has lower false-positive rate on negative examples than other algorithms

그렇다고 합니다..위양성의 적다: AMR 아닌데 AMR이라고 하는 경우가 적다는 것..

AMR-meta ensemble for functional genomics

다른 모델들과 보팅 앙상블 해봄…(보완효과 있다는 걸 주장하려는 듯..)

Run-time coparison

비교 위한 벤치마크데이터셋 만듬. 그리고 스펙은 32GB RAM, 4 AMD Opteron 6378 cores 라고 합니다..

Discussion

non-AMR도 사용하고, 비교도 하고 잘 함
아쉬운 점은 다른 데이터셋과 클래스명이 일치를 안 했다는 점

Availability of Source Code and Requirements

https://github.com/smarini/AMR-meta