짧은 요약(Abstract) :    
* AMR-meta DB/alignment 의존하지 않고 k-mer 통해 feature 추출,  
 feature에서 matrix factorization 사용으로 meta 추출,  
 meta 사용하여 제약있는 regression 모델 만듬..  
(하지만 regression 자체가 데이터 의존적이므로  주장은 내가  때는 합당하지 않음  )  
*  meta multi-level gene diversity captrue(주장)  
* 그들의 주장에 따르면 meta multi-level gene diversity capture하고 학습에 이용되며 결론적으로 AMR여부 알려줄  있음(학습때 nonAMR 사용-negative)  
* DB 불안전성과 nonAMR 동일기원이거나 동형기원인 것들의 존재로인해 방해받음, 이걸 해소해  거라고     
* AMR-meta 메타지노믹 샷건 시퀀싱으로부터 얻은 DNA 서열과 데이터를 분석하고 항생제 내성있는지 알려줌(AMR+nonAMR같이 있는 곳에서)  
* 비교군으로 AMR++, DeepARG, Meta-MARC, 이들의 ensemble(voting) 선정했고 cross validation median f-score  모델의 경우 0.7(0.2-0.9) 비교군 보다 좋다고 주장  
** 특히 semi-synthetic metagenomic data에서 average 1.3 fold hit rate 높았다고   
** 속도는 DeepARG보다 3 빠르고, Meta-MARC 30배이며 AMR++와는 비슷  
* 결론적으로 AMR-meta 빠르고 정확한데, non AMR negative set 써서 sensitivity specificity 향상되었음  
** 다만 AMR 예측/분류를 위한 용어 체계등이 표준화되지 않아 비교를 위한 벤치마크가 필요함을 인정  

한줄 요약:
k-mer 메타피쳐 접근 방식을 결합하여 데이터베이스나 정렬에 의존하지 않는 새로운 방법인 AMR-meta 제시  


Paper link
Lecture link


단어정리

  • hampered: 방해되다
  • homology: 동일기원성-구조들이 공통의 조상으로부터 유래
  • homoplasy: 동형기원성-서로 다른 종에서 비슷해 보이는 구조나 특성이 독립적으로 진화했다는 것 의미
  • PATRIC: Pathosystems Resource Integration Center
  • Pathosystems: 병원체
  • LASSO: Least Absolute Shrinkage and Selection Operator-LASSO는 회귀 모델에서 중요한 변수를 선택하고, 불필요하거나 중요하지 않은 변수의 계수를 0으로 만듬/ LASSO는 회귀 계수의 절대값의 합에 페널티를 부과함으로써 모델의 과적합을 방지
    ** LASSO는 특히 변수가 많고 서로 상관 관계가 있는 경우, 또는 관측치보다 변수가 더 많은 경우에 유용
    ** LASSO를 사용함으로써 보다 단순하고, 해석하기 쉬우며, 예측력이 높은 모델을 생성할 수 있음
  • collate: 함께 합치다
  • k-mer spectrum: 주어진 생물학적 서열에서 발생하는 모든 가능한 k-mer의 집합
  • discrimination performance: 구분 성능
  • oncology: 종양학
  • proteomics: 프로테오믹스-생체 내에서 발현되는 모든 단백질의 대규모 연구
  • Putative: 추정되는, 가정된
  • house keeping gene: 세포 생존에 필수불가결한 유전자로 어떠한 상황에서도 발현되는 유전자
  • vertebrate: 척추 동물
  • Flanking region: 유전학에서 특정 DNA 시퀀스나 유전자 옆에 위치하는 DNA 영역, 이 영역은 특정 유전자 또는 중요한 유전적 요소의 양쪽 끝, 즉 상류(upstream)와 하류(downstream)에 위치할 수 있음
  • (Upstream) Flanking Region: 유전자의 시작 부분(프로모터 영역) 앞에 위치하는 DNA 시퀀스. 이 영역은 유전자의 발현을 조절하는 데 중요한 역할을 하며, 여기에 위치한 조절 요소들은 유전자의 전사를 시작하거나 조절하는 데 관여
  • (Downstream) Flanking Region: 유전자의 끝 부분 뒤에 위치하는 DNA 시퀀스. 이 영역은 유전자의 안정성, 전사 종료 및 유전자 후처리 과정에 영향
  • elongating: 길게 늘리다, 확장하다
  • fosmid: 특정한 종류의 클로닝 벡터
    ** 벡터는 DNA 조각을 쉽게 다루고, 특정한 세포에 삽입하기 위해 사용되는 DNA 분자
    ** 포스미드는 박테리오파지 λ(람다) 벡터에서 유래한 벡터로, 대략 35-40kb(킬로베이스) 크기의 DNA 조각을 클로닝하기 위해 사용
  • Escherichia coli: 대장균
  • shotgun metagenomic data: 메타게놈 시퀀싱은 환경 샘플(예: 토양, 물, 인체 미생물군)에서 추출한 DNA의 전체 시퀀스를 무작위로 단편화하여 시퀀싱
    ** 다양한 유전자의 동시 분석, 미생물 다양성과 기능 분석
    ** 샷건은 다수의 작은 산탄을 발사하여 넓은 범위를 타격하는 무기입니다. 마찬가지로, 샷건 메타게놈 시퀀싱은 환경 샘플(예: 토양, 물, 인체 미생물군)에서 추출한 DNA를 무작위로 작은 조각으로 분해한 후, 이 조각들을 독립적으로 동시에 시퀀싱합니다. 이 방식은 많은 수의 다양한 DNA 조각들을 동시에 커버함으로써, 샘플 내에 존재하는 다양한 미생물의 유전적 정보를 광범위하게 탐색하고 분석할 수 있게 함
    ** 샷건이 발사될 때 많은 산탄이 넓게 퍼지듯이, 샷건 시퀀싱은 많은 수의 DNA 조각들을 넓게 분석하는 특성을 반영하여 붙여진 것
  • s-score: 표준화(Standardization)-데이터를 표준화하여 평균이 0이고 표준편차가 1이 되도록 조정. 이를 통해 데이터 포인트들이 동일한 척도에 있도록 만듬, 이를 토대로 각 유전자의 발현 차이를 계산, 데이터를 표준화하여 서로 다른 실험 조건이나 처리가 얼마나 차이를 만들어내는지 평가
  • concordance: 일치, 조화


알아야할 것들

  • dataset source: CARD, MEGRes, ARDB, uniprot(?, manually)
  • 본 논문은 raw short-read AMR classification에 focus
  • 본 논문에서는 MEGARes 2.0에서 gene 합침(근데 house keeping gene-생존 필수 유전자는 뺌)
  • MEGARes에서 simulation해서 10배로 뿔림
  • short read 만들기 위해 InSilicoSeq 사용( Illlumina’s Noa Seq 시뮬레이션 )
  • input: end paired reads, output: one of the 13 AMR classes


Introduction

  • 사용하는 메타피쳐는 주로 k-mer 스펙트럼의 공간 변환을 통해 식별되는 여러 독립적인 k-mer 조합들임

Methods

  • k-mer와 k-mer의 행렬분해 기반(이걸 메타라 칭함)
  • 내부 데이터셋에서 AMR-meta를 훈련하고 테스트하며, 여기에는 AMR 유전자와 비-AMR 유전자가 포함
  • 다른 도구들과 비교하기 위해 PATRIC에서 추출한 박테리아 genome 데이터를 사용하여 두 가지 반합성(세미-신테틱) 외부 데이터셋을 생성
  • 이러한 데이터셋은 특정 분자 또는 항생제 클래스에 대한 약물 저항/민감성을 대표하며, PSSmol과 PSScla로 명명
    ** mol은 moclue(분자 구조), cla는 class(항생제 클라스)

Feature encoding and prediction models

AMR-meta k-mer LASSO module

  • AMR-meta의 기본 모델은 로지스틱 회귀분석을 사용
  • k-mer 스펙트럼의 고차원성을 고려하여, LASSO(Least Absolute Shrinkage and Selection Operator) 정규화를 사용하여 특징 공간을 줄이고, 교차 검증을 통해 축소 연산자를 최적화

AMR-meta metafeature ridge module

  • AMR-meta의 k-mer LASSO 회귀에서 발생할 수 있는 문제 중 하나는 단일 선형 k-mer 특징 조합이 데이터셋 전체의 분산을 설명하기에 충분하지 않을 수 있음
  • 이 문제를 해결하기 위해, AMR-meta는 k-mer 스펙트럼의 공간 변환과 함께 차원 축소를 통해 여러 개의 독립적인 k-mer 조합을 식별하는 방식을 사용
  • 여러 선형 조합을 사용하는 것이 한 가지 방법으로, 예를 들어 주성분 분석의 첫 번째 mth 벡터 등이 이에 해당
  • 이를 ridge regression 함(기본 선형회귀형인데 L2 규제)
  • 릿지 회귀는 회귀 계수의 제곱에 페널티를 부과하여 과적합을 방지하고, 모델의 일반화 능력을 높임

Training strategy

AMR genes

  • MEGARes 2.0 사용
    ** 단일 점 변이를 통해 내성을 부여하는 가정 유전자는 이 데이터 세트에서 제외->모델 정확도 높임

Putative non-AMR bacterial genes

  • RefSeq 데이터베이스에서 추정된 비-AMR(항생제 내성이 없는) 박테리아 유전자들을 포함
  • BLAST를 사용하여 MEGARes에 매칭되지 않는 RefSeq의 박테리아 유전자 1000개를 선택
  • 이 유전자 세트는 MEGARes 내의 AMR 유전자와 높은 유전적 다양성을 가지지만, 핵산 구성은 전적으로 박테리아

AMR-homologous human and vertebrate genes

  • AMR 유전자와 상당한 유사성을 공유하는 유전자를 모방하기 위해 데이터셋을 구성-척추동물 포유류”와 “척추동물 기타” 조립체에서 AMR 유사 유전자 및 유전자 조각을 선택하여 만듬
  • 이러한 접근 방식은 박테리아 AMR 유전자와 유사하지만 실제로 항생제 내성을 제공하지 않는다고 가정되는 유전자를 포함
  • 실제 AMR 유전자와 유사하지만 기능적으로 내성을 제공하지 않는 유전자들을 구별하는 능력을 향상

k-mer-based and metafeature modeling

  • 연구에서는 훈련 데이터셋에 있는 유전자들로부터 모든 k-mer를 고려하고, 이를 다양한 k 값(13부터 77까지)을 사용하여 계산. k의 최적값은 내부 검증 성능에 따라 점진적으로 선택되며, 성능이 감소할 때 선택이 중단
  • 훈련 샘플을 클래스별로 구분한 후, 특정 클래스에서 주어진 컷오프 빈도(f)보다 낮은 모든 k-mer를 제거

Simulation of metagenomic short-read data for training

  • MEGARes 각 클래스에 대해, 원래 전체 유전자 데이터의 10배 베이스 커버리지를 제공하는 단독 읽기(short-read) 데이터셋을 생성
  • 외부 검증을 위해, 훈련 세트와 유사하게 만들어진 2개의 반합성(semi-synthetic) 데이터셋과 2개의 기능적 메타게놈믹 실험에서 파생된 데이터셋을 사용
  • 외부 테스트 세트에서 AMR 및 k-mer 스펙트럼의 발생 빈도가 훈련 데이터와 균형을 이루지 않을 수 있기 때문에, 내부 검증 데이터셋과 k-mer 및 메타피쳐 벡터가 비어 있는 샘플을 사용하여 k-mer 및 메타피쳐 확률 임계값을 재조정. 이 비율은 1:0.05에서 1:10 사이에서 최적화되며, 교정 목표를 충족하는 첫 번째 비율이 선택

External validation

Semi-synthetic datasets

  • Semi-synthetic 데이터셋은 PATRIC(Pathosystems Resource Integration Center)에서 다운
  • 연구팀은 Clinical & Laboratory Standards Institute(CLSI)의 표준에 따라 항생제 내성 또는 민감성으로 주석이 달린 게놈만을 보존
  • PATRIC의 항생제 명명법이 MEGARes의 분류 체계와 정확히 일치하지 않기 때문에, 연구팀은 각 PATRIC 약물 주석을 MEGARes 클래스에 연결하는 조회 테이블을 작성
  • PSS_mol은 PATRIC 데이터베이스에서 얻은 전체 박테리아 게놈을 기반으로 하며, 각 게놈은 특정 분자에 대한 저항성 또는 감수성이 실험적으로 테스트된 결과에 근거하여 라벨링됩니다. 이 데이터셋은 분자별로 구분되며, 각 분자는 하나의 특정 항생제를 대표
  • PSS_cla 역시 PATRIC 데이터베이스에서 얻은 전체 박테리아 게놈을 기반으로 하지만, 이 경우 각 게놈은 항생제 클래스별로 저항성 또는 감수성을 나타내는 라벨을 가짐

Functional metagenomics data

  • 환경 샘플(예: 토양, 물, 장내 미생물군)에서 추출한 DNA의 기능적 특성을 분석하는 데 중점
  • 이 연구에서 사용된 기능성 메타게놈 데이터는 두 개의 데이터셋, ‘Pediatric’와 ‘Soil’에서 파생
  • 박테리아 벡터에 클로닝하는 과정을 포함
  • ‘Pediatric’과 ‘Soil’ 데이터셋은 대장균(Escherichia coli DH10B)에서 유래한 포스미드를 포함

Software and hardware set-up

  • BLAST, R, 그리고 Bioconductor가 포함
  • k-mer LASSO 및 메타피쳐 회귀 분석은 R, Bash, 그리고 C++ 언어를 사용하여 개발
  • 기능성 메타게놈 데이터셋은 NCBI의 sra-toolkit을 사용하여 다운로드
  • InSilicoSeq 사용하여 read gen

Results

AMR-meta provides competitive prediction performance on multiple AMR classes

  • 13개 데이터셋 생성함, 10개 미만 클래스는 제외,best k는 5에서 13사이
  • 성능은 f-measure 0.7(0.2-0.9), median f-measure는 0.4(0.2-0.7)

AMR-meta generlizes robustly on external, semi-syntehtic datasets

  • PSS_mol은 12개의 molecule labels 붙음
  • median s-score에서 좋은 결과 보임

AMR-meta predictions complement those of existing algorithms

  • 제일 이해 안 가는 부분이지만… spearman correlation으로 다른 경쟁 모델들끼리의 유사성을 체크함
    ** DeepARG, Meta-MARC, AMR++는 매우 밀접한 관계임… ** 본 모델과는 밀접하진 않음…?
    ** 정확도는 본 모델이 제일 높음….(부족한 부분 매꿔줄 수 있다는 걸로 해석하는 듯)

AMR-meta has lower false-positive rate on negative examples than other algorithms

  • 그렇다고 합니다..위양성의 적다: AMR 아닌데 AMR이라고 하는 경우가 적다는 것..

AMR-meta ensemble for functional genomics

  • 다른 모델들과 보팅 앙상블 해봄…(보완효과 있다는 걸 주장하려는 듯..)

Run-time coparison

  • 비교 위한 벤치마크데이터셋 만듬. 그리고 스펙은 32GB RAM, 4 AMD Opteron 6378 cores 라고 합니다..

Discussion

  • non-AMR도 사용하고, 비교도 하고 잘 함
  • 아쉬운 점은 다른 데이터셋과 클래스명이 일치를 안 했다는 점

Availability of Source Code and Requirements

  • https://github.com/smarini/AMR-meta