짧은 요약(Abstract) :
* 단백질의 기능이나 구조를 예측하기 위해 PSI-BLAST에 의해 생성된 다중 서열 정렬(MSAs) 또는 위치별 점수 매트릭스(PSSMs)에 요약된 진화 정보가 많이 사용 됨
* 현재 단백질 구조와 기능 예측에 사용되는 절차는 계산적으로 고갈되고 시간이 많이 소요됨
* 주요 문제는 PSI-BLAST 소프트웨어가 현재 시퀀스 데이터베이스(약 220GB)를 배치로 로드하고 쿼리 시퀀스에 유사한 시퀀스 정렬을 검색해야 한다는 데 있음
* 이로 인해 중간 크기(450 아미노산) 쿼리 단백질의 평균 실행 시간은 약 40-60분이 걸림
* 이 평균 실행 시간은 소프트웨어를 실행하는 데 사용되는 하드웨어에 엄격히 의존함
* 문제는 생물학적 시퀀스 데이터 풀이 시간이 지남에 따라 기하급수적으로 증가함에 따라 PSI-BLAST의 실행 시간도 증가하고 있어 더욱 문제가 됨
* 충분한 메모리가 주어지면 MMseqs2 방법은 전체 데이터베이스를 메모리에 로드하고 관련된 시퀀스 집합을 검색하기 위해 특정 휴리스틱을 적용함
* 그러나 이 솔루션은 원하는 PSI-BLAST 정렬 및 PSSM 프로필 데이터 형식으로 최종 출력을 직접 생성하는 데 사용할 수 없음
* 이 연구 프로젝트에서는 각 도구의 실행 시간 성능을 분석함
* 또한 MMseqs2와 PSI-BLAST를 결합하여 PSI-BLAST보다 두 자릿수 빠른 강력한 최적화된 매우 빠른 하이브리드 정렬 도구를 얻기 위한 파이프라인을 구축함
* C++로 구현되었으며 이전에 구축된 두 가지 예측 모델에서 평가함
* information summarized in multiple sequence alignments or position-specific scoring matrices generated by PSI-BLAST is widely used to predict the function or structure of proteins
* The current process for predicting protein structure and function is computationally intensive and time-consuming
* The main issue is that the PSI-BLAST software needs to load the current sequence database(220GB) in batches and search for sequence alignments similar to the query sequence
* As a result, the average execution time for a medium-sized(450 amino acids) query protein is about 40-60 minutes
* This average execution time heavily depends on the hardware used to run the software
* The problem is exacerbated as the execution time of PSI-BLAST increases due to the exponential growth of biological sequence data over time
* Given enough memory, the MMseqs2 method loads the entire database into memory and applies specific heuristics to search for a related set of sequences
* However, this solution cannot be used to directly produce the desired PSI-BLAST alignments and PSSM profile formats
* This research project analyzes the execution time performance of each tool
* It also constructs a pipeline to combine MMseqs2 and PSI-BLAST to obtain a highly optimized, much faster hybrid alignment tool that is orders of magnitude faster than PSI-BLAST
* It is implemented in C++ and evaluated using two previously constructed prediction models
Useful sentences :
Paper link
Lecture link
단어정리
1 Introduction