Paper with my notes


Protein BERT + Antibiotic Resistence Genes

  • 시행착오
    ** 파인튜닝이면 만사 ok라고 생각
    * 코드문제가 아니었던 것 같음
    *** 데이터가 너무 편향적이고 카테고리는 14개로 많은편이며, 데이터 개수가 적음
    *** 계속 같은 예측값만 뱉어내는 것을 보아 overfiting 됨
    ** 데이터 균형 잡히게 하는 방안 고민
    *** 언더샘플링 / 오버샘플링 생각
    *** 언더샘플링은 효과 없었음
    ** 그냥 프로틴버트에서 임베딩 뽑아내서 이 데이터로 ml기법들(dl포함) 사용해야하나 생각이 듦
    *** 예전에 했던 광고 카테고리 분류처럼 여러 테스트 해봐야하나? 일단 자야겠음 근데.. ** 임베딩 벡터를 잘 뽑아와서 ML기법 적용해보기로 함
    *** 임베딩 평균으로 센텐스임베딩 처럼 사용하여 랜덤포레스트 모델에서 학습 -> acc0.5
    **
    근데 이 정확도마저 재현이 안됨…..
    ** 임베딩 컨캣해서 길게 이어붙임, 이것으로 랜덤포레스트 모델 학습 -> acc 0.3 ** 바로 위의 임베딩 중 길이 제한 300, 100으로 줌 이걸로 랜덤포레스트 -> acc 0.3
    ** 각종 앙상블 모델들 다 30~40 언저리… mlp도 그 언저리..
    ** official한 github에서 제공하는 코드 사용
    **
    제공하는 feature extraction을 통해 얻은 임베딩으로 위 과정 반복해보니 0.5~0.6
    ** 파인튜닝 시도
    ** 멀티태스크러닝으로?
    **
    제공 멀티태스크 코드 분석해서 단일 테스크로 파인튜닝
    ** epoch3시 55%, epoch20까지 늘려서 57% 정확도
    **
    weighted precision/weightedd recall도 비슷한 수준, confusion matrix visual추가


[2022]Fine-tuning of BERT Model to Accurately Predict Drug-Target Interactions

짧은 요약 :  

* 최적  후보 식별 중요  
** 여기에 ML도입(DTI)  
** Protein 모델 도입(ChemBERT화학물질, ProtBERT담백질 염기서열)  
*** 사전학습된 모델로 데이터: BIOSNAP, DAVIS&BINDING DB  
** ChemBERT + ProtBERT + DBs(fine-tuning)으로 BEST 성능  
*** BERT들의 [CLS] 토큰을 concat하여 classifying한다는 점이 특이  

Paper with my notes

Lecture link

단어정리

  • .


[2022]Structure-Aware Antibiotic Resistance Classification Using Graph Neural Network

짧은 요약 :  

* 이전: 기존 seq 비교  
* 단점:  seq 유사한 것만은 아님  
* DL기반 분류(ARG)  
** 2steps:  
(1) AlphaFold Model 3D구조 predict  
(2) seq transformer 기반 protein LM 사용 & graph NN으로 graph 추출  
** SOTA 달성  

Paper with my notes

Lecture link

단어정리

  • .


[2022]ProteinBERT: a universal deep-learning model of protein sequence and function

짧은 요약 :  

* self-supervised deep LM 대성공 in NLP  
** bio seq 적용: ProtBERT with Gene Ontology Annotation Prediction  
** local/global  커버  
** SOTA 근접 또는 효과를 보임  
(Protein structure, post ranslation modification, biophysical attribute)  

Paper with my notes

Lecture link

단어정리

  • .


[2018]DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data

–> updated with new post

짧은 요약 :  

* AR 증가  
** 모니터링 기법 진보,  ARG 식별 필요  
** hit 기반은 false negative 많음  
** DL 기법 제안  
** 결과 precision >0.97 / recall > 0.90  
** SOTA  k 

Paper with my notes

Lecture link

단어정리

  • .