Methicillin-Resistance: (메티실린 내성), 특히 포도상구균(Staphylococcus aureus)과 같은 박테리아가 항생제 메티실린에 내성을 가진 상태를 의미. 메티실린은 과거에는 포도상구균 감염에 효과적이었으나, 메티실린 내성 균주의 출현으로 인해 그 효과가 감소
Methicillin: (메티실린), 베타-락탐 계열의 항생제로, 포도상구균과 같은 세균에 대해 사용되었습니다. 그러나 현재는 많은 포도상구균이 이 약에 대한 내성을 갖고 있음
Staphylococcus aureus: (포도상구균), 인간의 피부나 호흡기에 흔히 존재하는 박테리아로, 때때로 심각한 감염을 일으킬 수 있음. 메티실린 내성 포도상구균(MRSA)은 특히 주목할만한 문제
Mycobacterium tuberculosis: (결핵균), 결핵을 일으키는 박테리아로, 주로 폐에 영향을 미치며 전염성이 있음
Rifampicin: (리팜피신), 결핵 치료에 주로 사용되는 항생제. 결핵균에 대한 강력한 효과를 가지고 있으나, 내성 문제가 발생할 수 있음
Fluoroquinolone: (플루오로퀴놀론), 넓은 범위의 박테리아에 대해 효과적인 항생제 그룹. 각종 감염증 치료에 사용되지만, 내성 문제가 증가
Isoniazid: (이소니아지드), 주로 결핵 치료에 사용되는 항생제. 결핵균의 세포벽 합성을 억제하여 효과를 발휘
Colistin-Carbapenem: (콜리스틴-카바페넴), 콜리스틴과 카바페넴은 각각 다른 종류의 항생제이지만, 일부 박테리아가 이 두 항생제에 동시에 내성을 가진 경우가 있고 이런 내성 균주는 매우 치료하기 어려운 감염을 일으킬 수 있음
Colistin: (콜리스틴), 콜리스틴은 폴리믹신 항생제 그룹에 속하는 항생제. 주로 그람음성 박테리아에 의한 감염, 특히 다른 항생제들에 내성을 보이는 감염에 사용. 콜리스틴은 박테리아의 세포막을 손상시켜 죽게 만듬. 그러나 신장 독성과 같은 부작용의 위험이 있어 다른 치료 옵션이 없을 때 주로 사용
Carbapenem: (카바페넴), 카바페넴은 베타-락탐 항생제의 한 종류로, 매우 광범위한 항균 활동을 가지고 있음, 다른 항생제들에 내성을 보이는 병원균에 대해 효과적. 세포벽 합성을 방해하여 박테리아를 죽임. 내성을 보이는 박테리아의 출현이 보건 문제로 대두
Manure: (분뇨), 가축이나 다른 동물들로부터 나오는 배설물
Compost: (퇴비), 유기물을 분해하여 만든 비료로
Wastewater: (폐수), 가정, 산업, 농업 등에서 발생하는 오염된 물
Treatment Plants: (처리장), 폐수 처리장은 도시나 산업 단지에서 발생하는 폐수를 처리하여 환경으로의 방출 전에 오염물질을 제거. 이들 시설은 항생제 내성 유전자의 제거 및 관리에 중요한 역할.
Carbenicillin: (카베니실린), 베타-락탐 항생제의 일종으로, 특히 그람음성 박테리아에 대한 효과. 다양한 감염을 치료하는 데 사용.
Cefoxitin: (세폭시틴), 세팔로스포린 항생제 그룹에 속하는 항생제로, 폭넓은 범위의 박테리아에 대한 효과. 주로 피부, 호흡기, 요로 감염 등을 치료하는 데 사용.
Ceftazidime: (세프타지딤), 세팔로스포린 항생제로, 특히 병원에서 발생하는 심각한 감염에 대해 효과적.
Ceftriaxone: (세프트리악손), 광범위한 항균 활동을 가진 세대 세팔로스포린 항생제. 다양한 종류의 감염 치료에 사용.
Cephalosporin: (세팔로스포린), 베타-락탐 항생제 그룹 중 하나로, 여러 세대에 걸쳐 다양한 유형의 세팔로스포린이 있음. 광범위한 박테리아에 대한 효과.
Consolidated: 통합됨
HUGO Nomenclature: HUGO 명명법-인간 유전자의 공식적인 명명 규칙을 제공하는 HUGO 유전자 명명위원회(HUGO Gene Nomenclature Committee)의 데이터베이스. 유전자의 이름과 기능에 대한 정보를 제공.
Levenshtein Distance: (레벤슈타인 거리), 두 문자열 간의 유사도를 측정하는 방법으로, 한 문자열을 다른 문자열로 변환하기 위해 필요한 최소한의 단일 문자 편집(삽입, 삭제, 대체)의 수를 나타냄
NGS: Next-Generation Sequencing, 고속으로 대량의 DNA 시퀀스를 동시에 읽을 수 있는 플랫폼을 제공. 이 기술은 짧은 읽기 길이(short reads)를 생성하는 것으로 유명하며, 복잡한 메타지노믹 샘플을 분석하는 데 널리 사용, 대표적으로 illumina
Macrolide: (마크로라이드), 마크로라이드는 그람양성균과 특정 그람음성균에 효과적인 항생제. 이들은 주로 호흡기 감염, 피부 감염 등을 치료하는 데 사용. 대표적인 예로 에리스로마이신, 클라리스로마이신 등이 있음.
Lincosamide: (린코사마이드), 린코사마이드 항생제는 주로 그람양성균과 아나에로빅 박테리아에 대해 사용. 이들은 피부 감염, 치과 감염 등에 효과적. 대표적인 약물로는 클린다마이신이 있음.
Streptogramin: (스트렙토그라민), 스트렙토그라민 항생제는 그람양성균에 대해 효과적이며, 특히 메티실린 내성 포도상구균(MRSA)과 같은 다제내성 균주에 사용. 스트렙토그라민은 두 가지 서로 다른 구조의 약물로 구성.
Aminoglycoside: (아미노글리코사이드), 아미노글리코사이드 항생제는 주로 그람음성균 감염에 사용. 이들은 병원에서 발생하는 심각한 감염 치료에 효과적이지만, 신장과 청력 손상의 위험이 있음. 대표적인 약물로는 겐타마이신, 토브라마이신 등이 있음.
Elfamycin: (엘파마이신), 엘파마이신은 특정 박테리아의 단백질 합성을 억제하여 작용하는 항생제 그룹. 이들은 비교적 드물게 사용되며, 특정 종류의 감염에 효과적.
Fusidic Acid: (푸시딕 산), 푸시딕 산은 주로 포도상구균 감염에 사용되는 항생제. 이 약물은 피부 감염 및 연조직 감염에 주로 적용.
Puromycin: (푸로마이신), 푸로마이신은 단백질 합성을 억제하는 항생제. 실험실 연구에서 세포 내 단백질 합성을 연구하는 데 주로 사용되며, 의학적 용도로는 잘 사용되지 않음.
Macrolides: (마크로라이드), 마크로라이드는 주로 그람양성균과 몇몇 그람음성균에 효과적인 항생제. 호흡기 감염, 피부 감염 등을 치료하는 데 사용되며, 대표적인 예로 에리스로마이신, 아지스로마이신 등이 있음. 이들은 박테리아의 단백질 합성을 억제하여 작용.
Beta-Lactamases: (베타-락타마제), 베타-락타마제는 베타-락탐 항생제(예: 페니실린, 세팔로스포린)를 분해하는 효소를 생성하는 박테리아에 의해 생산. 이러한 효소의 존재는 박테리아가 이러한 항생제에 대한 내성을 갖게 함.
Glycopeptides: (글리코펩티드), 글리코펩티드 항생제는 주로 그람양성균 감염에 사용. 대표적인 예로는 반코마이신이 있으며, 이들은 박테리아 세포벽의 합성을 방해함으로써 작용.
Quinolones: (퀴놀론), 퀴놀론은 광범위한 항균 활동을 가진 항생제로, 주로 그람음성균과 그람양성균 감염을 치료하는 데 사용. 이들은 박테리아의 DNA 복제를 억제하여 작용. 대표적인 약물로는 시프로플록사신이 있음.
Triclosan: (트리클로산), 트리클로산은 항균성 물질로, 다양한 개인 위생 제품(예: 치약, 비누)에 사용. 박테리아의 세포막을 손상시켜 작용하며, 항균성 물질로서의 사용에 대한 우려가 제기되고 있음.
Chloramphenicol: 클로람페니콜은 수많은 병균 감염 치료에 유용한 항생물질. 여기에는 결막염 치료를 위한 안연고가 포함. 구강으로나 수액 주사를 통해 수막염, 전염병, 콜레라, 장티푸스 치료를 위해 사용 , 그람 양성균, 그람 음성균, 세균막을 가진 세균, 세균막이 없는 세균에 모두 효과적입니다. 세균의 단백질 합성을 억제하여 작용
fosfomycin: 세균의 세포벽 합성을 억제하여 작용하는 항생제. 그람 양성균과 일부 그람 음성균에 효과적.
sulfonamide: 세균의 엽산 합성을 억제하여 작용하는 항생제. 그람 양성균과 일부 그람 음성균에 효과적.
cell wall: 세포막
folate: 엽산
contig: 중첩된 dna / rna 부분
알아야할 것들
Background
(많이 봐왔던 공통적인 이야기이긴하지만..)항생제 내성의 급속한 증가는 전 세계적인 건강 위협이 되고 있으며, 이를 위한 고급 모니터링 방법이 필요.. 현재의 한계도 있음..ㅎㅎ 전통적인 방법은 기존 데이터베이스에 대한 시퀀스 검색에 의존인데 이는 종종 높은 비율의 거짓 음성 결과를 초래
짧은 읽기 시퀀스용 DeepARG-SS 모델과 전체 유전자 길이 시퀀스용 DeepARG-LS 모델이 개발
데이터베이스 통합: 주요 데이터베이스(CARD, ARDB, UNIPROT)에서 항생제 내성 유전자(ARGs)를 수집하고 중복을 제거
부과적으로..
** high throughput DNA sequencing은 metagenomic approach의 한계에서 DNA 식별 가능케해줌
** 기존 DB에 의존하는 BLAST, Bowtie, DIAMOND 방법들 ->False Negative 문제가 있음.. (ARG인데 ARG아니라 하는 것)
** ARGDB의 similarity distribution of sequences의 유사성을 사용하는것이 제안 모델의 주요 골자임
Implementation
Database merging
초기 항생제 내성 유전자(ARGs) 컬렉션은 세 가지 주요 데이터베이스인 CARD, ARDB, 그리고 UNIPROT에서 수집
UNIPROT에서는 ‘항생제 내성’ 키워드(KW-0046)를 포함하는 모든 유전자가 그들의 메타데이터 설명과 함께 검색
ARDB, CARD, UNIPROT의 모든 시퀀스가 CD-HIT을 사용하여 클러스터링 되었으며, 100% 동일성과 길이를 가진 시퀀스를 제외하고 모든 중복 또는 동일한 시퀀스가 제거
처리 후 남은 시퀀스 세트는 ARDB에서 2290개의 유전자(원래 ARDB 유전자의 50%), CARD에서 2161개의 유전자(원래 CARD 유전자의 49%)를 포함
기타
** 중복제거(100% 동일 및 길이도 통일)->ARDB 2,290/ CARD 2,161/ UNIPROT 28,108
ARG annotation of CARD and ARDB
ARG 분류-이는 유전자가 저항성을 나타내는 항생제 카테고리(예: 마크로라이드, 베타-락타마제, 아미노글리코사이드 등) 및 그 유전자가 속한 항생제 그룹(예: tetA, sul1, macB, oxa, mir, dha 등)으로
특정 항생제 세트 할당-수동 검사를 통해 일부 유전자들이 항생제 저항성 카테고리가 아닌 특정 항생제 세트에 할당되어 있음(예를 들어, 카바페넴, 카베니실린, 세폭시틴, 세프타지딤, 세프트리악손 및 세팔로스포린은 실제로 베타-락타마제 카테고리의 하위 집합)
항생제 카테고리 통합-ARDB와 CARD 데이터베이스에서 발견된 총 102개의 항생제가 30개의 항생제 카테고리로 통합
기타
** total 102 antibiotics in ARDB and CARD -> consolidated to 30 antibiotics
** UNIPROT-내성 키워드 정리 잘 안되어있음
** CD-HIT clustering + textmining(CD-HIT는 유전자 또는 단백질 시퀀스를 클러스터링하여 유사한 시퀀스를 그룹화하는 프로그램으로 이를 통해 중복 또는 매우 유사한 시퀀스를 제거함으로써 데이터 세트의 크기를 줄이고, 분석의 효율성을 높임, 본 논문에서는 CARD, ARDB, UNIPROT 데이터베이스에서 수집된 항생제 내성 유전자들을 CD-HIT을 사용하여 클러스터링, 이 과정을 통해 100% 동일하거나 중복되는 시퀀스를 제거하여 데이터의 중복성을 줄임)
** High Quality ARGs (High): 유전자가 CARD 또는 ARDB에서 유래한 항생제 내성 유전자(ARG)와 전체 길이에 걸쳐 90% 이상의 일치도를 보일 경우 ‘High’로 분류. 이는 해당 유전자가 높은 품질의 항생제 내성 유전자로 간주됨을 의미.
** Homologous ARGs (Mid): 유전자가 CARD/ARDB-ARG와 50% 이상, 90% 이하의 일치도와 1e-10보다 낮은 e-value를 보이며, 동시에 CARD/ARDB-ARG와 일관된 주석을 가질 경우 ‘Mid’로 태그. 이는 유전자가 항생제 내성 유전자와 유사하지만, 높은 일치도를 보이지는 않는 경우에 해당.
** Potential ARGs (Manual Inspection): 유전자가 CARD/ARDB-ARG와 50% 미만의 일치도와 1e-10보다 낮은 e-value를 가지며, CARD/ARDB-ARG와 일관된 주석을 가질 경우 ‘Manual Inspection’으로 분류. 이 유전자들은 잠재적인 항생제 내성 유전자로 간주되지만, 충분한 증거가 없어 추가 분석이 필요.
** Discarded ARGs (Low): 유전자가 최고 일치 CARD/ARDB-ARG와 다른 주석을 가지고 있고 e-value가 1e-10보다 큰 경우 ‘Discarded (Low)’로 분류. 이는 유전자가 잠재적으로는 항생제 내성 유전자일 수 있으나, 충분한 증거 부족으로 현재 고려에서 제외됨을 의미.
Deep learning
DeepARG 딥 러닝 모델-DeepARG 모델은 메타게놈 시퀀스를 항생제 저항성 범주로 분류하는 데 사용
비트 점수 정규화: 비트 점수는 [0, 1] 구간으로 정규화되어 시퀀스 유사성을 거리로 나타냄
** 딥 러닝 모델은 단순한 시퀀스 비교를 넘어서, 각 시퀀스가 항생제 저항성 범주에 속할 확률을 예측
in -> characterization -> training -> prediction
** uniprot data는 train과 validation에 사용, CARD/ARDB는 feature로 사용(similarity score용)
** short reads모델에서 유전자간 거리에서 DIAMOND 사용
** dense layer모델임(hidden layer size: 2000,1000,500 / output: 100 / input: 4333)
** MEGARes가 검증용으로 사용됨과 동시에 MEGARes를 구성하는 요소의 db들이 사용되었으므로.. 사용된 것임
Results and discussion
두 가지 딥 러닝 모델, DeepARG-SS와 DeepARG-LS,가 각각 짧은 읽기 시퀀스와 전체 유전자 길이 시퀀스를 대상으로 구축
** 이 모델들은 30가지 항생제 저항성 카테고리에 대한 평가를 거쳤으며, 높은 정밀도(> 0.97)와 재현율(> 0.90)을 보여줌.
** 100bp, 321008 reads, 70% for train / 30% for test
Antibiotic resistance database
데이터베이스 통합: ARDB, CARD, UNIPROT 데이터베이스에서 수집된 유전자들을 통합한 후, 중복되는 시퀀스를 제거. 결과적으로 ARDB에서 2290개(전체의 50%), CARD에서 2161개(전체의 49%), UNIPROT에서 28108개(전체의 70%)의 유전자가 수집.
UNIPROT 유전자 주석: UNIPROT의 유전자들 중 16360개는 사용 가능한 유전자 설명을 바탕으로 태깅.
시퀀스 유사성 검증 및 SNP 저항 유전자 제거: 시퀀스 유사성을 통한 검증과 SNP(단일염기다형성)에 의한 저항성을 나타내는 유전자들을 제거한 후, 10602개의 UNIPROT, 2203개의 CARD, 2128개의 ARDB 유전자 남음.
DeepARG-DB 구성: 이렇게 얻어진 DeepARG-DB 데이터베이스는 30개의 항생제 카테고리, 2149개의 그룹, 그리고 14933개의 참조 시퀀스(CARD+ARDB+UNIPROT)를 포함.
** 계속 update할 예정
Prediction of short sequence reads
시퀀스 분할: 메타지노믹 라이브러리를 시뮬레이션하기 위해, UNIPROT에서 수집된 유전자들을 100 염기쌍(bp) 길이의 짧은 시퀀스로 분할.
reads 수: 이 과정을 통해 총 321,008개의 짧은 시퀀스가 생성.
학습 및 검증 데이터 분할: 생성된 시퀀스 중 70%가 무작위로 선택되어 학습 데이터로 사용되었으며, 나머지 30%는 검증을 위해 사용.
모델 성능: DeepARG-SS 모델은 전체적으로 0.97의 정밀도(precision)와 0.90의 재현율(recall)을 달성.
멀티드러그 결과:
** 멀티드러그 범주: 멀티드러그 범주는 다양한 항생제 범주에 저항성을 가진 유전자들을 포함. 여기에는 마크로라이드, 베타-락타마제, 글리코펩티드, 퀴놀론과 같은 항생제 범주뿐만 아니라 금속 등의 다른 항균제에 대한 저항성을 나타내는 유전자들도 포함.
** DeepARG-SS 모델의 성능: DeepARG-SS 모델은 멀티드러그 범주에서 다른 범주들에 비해 가장 높은 거짓 양성률(false positive rate)을 보였으며, 이는 정확도(precision)가 0.27이었다는 것을 의미. 이는 많은 비-멀티드러그 시퀀스들이 멀티드러그 시퀀스로 잘못 태깅됨 의미.
** 기존 방법 대비 비교: 다른 한편으로, 기존의 ‘베스트 히트’ 접근법은 멀티드러그 범주에서 더 높은 정확도(0.44)를 보였지만, 재현율(recall)은 훨씬 낮은 0.44에 불과.
** 도전 과제: 멀티드러그 유전자들은 종종 유사한 시퀀스를 공유하기 때문에, 계산 방법으로 짧은 읽기 시퀀스의 진정한 정체성을 판별하기 어렵. 따라서 DeepARG는 예측 확률이 0.9 미만일 경우 상위 두 ARG 범주를 수동 검사를 위해 보고.
Prediction of long ARG-like sequences
DeepARG-LS 모델은 전체 유전자 길이 서열을 기반으로 하며, UNIPROT 유효 유전자를 70% 학습 및 30% 검증 데이터로 분할하여 학습함.
모델은 전체 정밀도와 재현율이 각각 0.99로 높은 성능을 보였음.
특히, 데이터베이스에서 대표적으로 나타나는 베타 락타메이즈, 바시트라신, 클로람페니콜, 아미노글리코사이드 같은 항생제 범주에서 높은 정밀도와 재현율을 보임.
Performance prediction of known and validated ARGs
DeepARG-LS 모델은 MEGARes 데이터베이스의 모든 ARG 시퀀스에 적용되었으며, 이 데이터베이스에는 CARD, ARG-ANNOT, RESFINDER 등에서 수집된 수동으로 큐레이트된 ARG가 포함됨.
이 모델은 전체적인 정밀도와 재현율이 각각 0.94와 0.93으로 높게 나타남.
Validation through Novel ARGs
DeepARG-LS 모델은 카바페넴 내성을 나타내는 76개의 새로운 금속 베타 락타메이즈 유전자에 대해 테스트됨.
이 중 65개 (85% 정확도)가 베타 락타메이즈로 정확하게 예측되었으며, 나머지 9개는 낮은 정렬 커버리지로 필터링되었음.
Validation through an in Silico spike-in experiment
DeepARG-SS 모델은 ARG 시퀀스가 전체 리드의 소수에 불과한 실제 샘플에서의 성능을 평가하기 위해 사용됨.
이 모델은 10000개의 비우세 ARG 리드 중 9976개(99% 민감도)를 정확하게 예측함.
Validation through PseudoARGs
DeepARG-LS 모델은 진짜 ARG가 아니지만 ARG의 일부를 포함하는 유전자(가짜 ARG)를 구별하는 능력을 평가하기 위해 사용됨.
이 모델은 300개의 가짜 ARG 중 285개(5%의 거짓 양성률)를 필터링하는데 성공함.
Limitation of DeepARG and usage recommendation
DeepARG-LS와 DeepARG-SS 모델은 각각 다른 ARG 예측 전략에 맞춰져 있음. 특히, DeepARG-LS 모델은 더 긴 시퀀스에서 더 정확할 수 있음.
DeepARG의 성능은 훈련 데이터베이스의 품질에 크게 의존함. 데이터베이스의 오류는 예측에 영향을 미칠 수 있음.
Conclusion
DeepARG는 메타게놠믹 데이터로부터 ARG를 식별하고 태깅을 달기 위한 새로운 계산 자원으로 개발되었음.
DeepARG는 전통적인 ‘최고 적중 접근법’보다 더 정확하며, 엄격한 커트오프에 제한되지 않고 거짓 음
Availability and requirements
DeepARG는 명령 줄 프로그램으로, 입력으로 FASTA 파일 또는 BLAST 탭 형식 파일을 사용할 수 있음.
FASTA 시퀀스 파일을 입력으로 사용할 경우, DeepARG는 먼저 시퀀스 검색을 수행한 후 ARG를 태깅 처리. BLAST 탭 형식 파일이 입력되면 DeepARG는 바로 ARG 태깅.
DeepARG의 온라인 버전도 사용 가능하며, 여기서 사용자는 메타게놠믹 원시 시퀀스 파일(FASTQ 형식)을 업로드하여 ARG 태깅 받음.
데이터 처리가 완료되면 사용자는 ARG의 절대 및 상대적 풍부도를 포함한 태깅 처리된 ARG 결과에 대한 이메일을 받게됨.
웹 서비스는 사용자가 DeepARG 분석의 파라미터(정체성, 확률, 커버리지, E-value)를 수정할 수 있도록 함.
커맨드라인 버전을 사용할 경우, 사용자는 각 읽기/유전자가 특정 항생제 저항 범주에 속하는 확률과 함께 더 정교한 결과에 접근할 수 있음
기타 내용…
뭐야 BLAST쓰네…
Find me on WeChat with the ID YourWeChatUsername, or scan my QR code: