[1990]Basic Local Alignment Search Tool
짧은 요약(Abstract) :
* BLAST는 지역 유사성을 최적화하는 새로운 빠른 시퀀스 비교 방법으로, 최대 세그먼트 쌍 점수를 근사
* 이 방법은 MSP 점수의 확률적 특성 분석을 통해 성능과 생성된 정렬의 통계적 유의성을 평가
* BLAST는 단순하고 다양한 상황에서 적용 가능하며, 기존 도구보다 훨씬 빠른 속도를 제공
Useful sentences :
* 단어정리
- negligible: 하찮은, 미미한
- auxiliary: 보조적인, 부가적인
- delimi: 한계를 정하다
1. Introduction
- 단백질 또는 단백질 가족과의 시퀀스 상동성 발견이 새로운 유전자의 기능에 대한 첫 번째 단서를 제공
- DNA와 아미노산 시퀀스 데이터베이스가 커질수록, 새로운 유전자와 단백질 분석에 더 유용해지며, 이러한 상동성을 찾을 가능성이 더 높아짐
- 시퀀스 데이터베이스를 검색하는 다양한 소프트웨어 도구들이 있지만, 모두 시퀀스 간의 유사성을 측정하는 어떤 기준을 사용하여 생물학적으로 유의미한 관계와 우연한 유사성을 구별
- 가장 잘 연구된 측정 기준 중 하나는 동적 프로그래밍 알고리즘의 변형과 함께 사용되는 것으로, 이러한 방법들은 삽입, 삭제, 치환에 점수를 할당하고 두 시퀀스의 최소 비용 집합에 해당하는 정렬을 계산
- 이러한 정렬은 비교되는 두 시퀀스 간의 진화적 거리를 최소화하거나 유사성을 최대화하는 것으로 간주
2. Methods
(a) The maximal segment pair measure
- 최대 세그먼트 쌍(Maximal Segment Pair, MSP) 측정 방법은 시퀀스 유사성을 평가하는 일반적인 방식으로, 전역 유사성과 지역 유사성으로 분류
- 전역 유사성 알고리즘은 두 시퀀스 전체의 정렬을 최적화하지만, 지역 유사성 알고리즘은 상대적으로 보존된 부분 서열만을 탐색하며, 단일 비교에서 여러 개의 독립적인 부분 서열 정렬을 생성할 수 있음
- BLAST에서 사용하는 MSP 측정은 모든 가능한 잔기 쌍에 대해 정의된 유사성 점수 행렬로 시작
-
이 행렬에서 정체성과 보존적 치환은 긍정적인 점수를 받고, 비현실적인 치환은 부정적인 점수를 받음
- MSP는 두 시퀀스에서 선택된 동일 길이의 세그먼트 쌍 중 가장 높은 점수를 가진 쌍을 의미하며, MSP의 경계는 그 점수를 최대화하기 위해 선택
*MSP 점수는 지역 유사성의 척도를 제공하며, BLAST는 이 점수를 휴리스틱 방법으로 계산하려고 시도 - 두 단백질 간의 가장 높은 점수를 가진 쌍뿐만 아니라 모든 보존된 영역에 관심이 있을 수 있으므로, 점수를 향상시키거나 줄임으로써 개선될 수 없는 세그먼트 쌍을 지역적으로 최대로 정의
-
BLAST는 특정 절단 값 이상의 모든 지역적으로 최대 세그먼트 쌍을 탐색할 수 있음
- MSP 점수와 같은 여러 유사성 측정은 간단한 동적 프로그래밍 알고리즘을 사용하여 두 시퀀스의 길이 곱에 비례하는 시간 내에 계산될 수 있음
- MSP 측정의 중요한 장점 중 하나는 최근 수학적 결과를 통해 적절한 무작위 시퀀스 모델 하에서 MSP 점수의 통계적 유의성을 추정할 수 있고 특정 점수 행렬(예: PAM-120)에 대해 최대 세그먼트 내 쌍을 이루는 잔기의 빈도를 추정할 수 있으며, 이는 BLAST 알고리즘의 핵심적인 특징
(b) Rapid approximation of MSP scores
- MSP 점수의 빠른 근사화는 대규모 시퀀스 데이터베이스를 검색할 때, 소수의 시퀀스만이 조회 시퀀스와 상동성을 보일 것임을 고려한 BLAST의 핵심 전략
- 연구자는 특정 임계값 S 이상의 MSP 점수를 가진 시퀀스 항목만을 식별하는 데 관심이 있으며, 이러한 시퀀스에는 조회 시퀀스와 매우 높은 유사성을 공유하는 시퀀스뿐만 아니라, 경계선에 있는 점수를 가진 시퀀스도 포함될 수 있음
- 후자의 집합에는 높은 점수를 받은 무작위 일치 시퀀스와 조회 시퀀스와 멀리 관련된 시퀀스가 포함될 수 있음
-
높은 점수를 받은 시퀀스의 생물학적 중요성은 거의 유사성 점수를 기반으로 추론될 수 있으며, 경계선에 있는 시퀀스의 생물학적 맥락은 생물학적으로 흥미로운 관계를 구별하는 데 도움이 될 수 있음
- BLAST는 고정된 길이 w의 ‘단어 쌍’(word pair)이라고 하는 세그먼트 쌍을 통해 이러한 근사화를 달성
- BLAST의 주요 전략은 적어도 T 이상의 점수를 가진 단어 쌍을 포함하는 세그먼트 쌍만을 찾는 것
- 시퀀스를 스캔하면서, w 길이의 단어가 조회 시퀀스와 쌍을 이루어 T 이상의 점수를 가진 단어 쌍을 생성할 수 있는지 빠르게 결정
- 이러한 적중(hit)은 S 이상의 점수를 가진 세그먼트 쌍 내에 포함되어 있는지를 결정하기 위해 확장
- T의 임계값이 낮을수록 S 이상의 점수를 가진 세그먼트 쌍이 적어도 T 이상의 점수를 가진 단어 쌍을 포함할 가능성이 높아짐
- 그러나 T의 작은 값은 적중 횟수와 따라서 알고리즘의 실행 시간을 증가
- 무작위 시뮬레이션을 통해 이러한 고려 사항을 균형있게 조정할 수 있는 T 임계값을 선택할 수 있음
(c) Implementation
- BLAST 구현은 세 가지 알고리즘 단계(높은 점수를 가진 단어 목록 작성, 데이터베이스에서 적중 찾기, 적중 확장)에 따라 달라질 수 있는데, 이는 데이터베이스가 단백질 시퀀스를 포함하고 있는지 DNA 시퀀스를 포함하고 있는지에 따라 다름
- 단백질의 경우, 목록은 조회 시퀀스의 어떤 단어와 비교했을 때 최소한 T 점수를 얻는 모든 단어들로 구성
- 따라서 조회 단어는 목록에 단어가 없을 수도 있고(PAM-120 점수를 사용하는 일반적인 단어들의 경우) 많은 단어로 표현될 수도 있음
-
우리가 가장 유용하다고 판단한 w와 T 값에 대해, 일반적으로 조회 시퀀스의 각 잔기마다 목록에 약 50개의 단어가 있으며, 예를 들어 길이가 250인 시퀀스의 경우 12,500개의 단어가 됨
- 스캔 단계에서는 긴 시퀀스에서 특정 짧은 시퀀스의 모든 발생을 찾는 전형적인 알고리즘 문제가 제기
-
우리는 두 가지 접근 방식을 조사
** 첫 번째 접근 방식을 단순화하면, w=4로 가정하고 각 단어를 1부터 204 사이의 정수로 매핑하여 크기가 204인 배열에 인덱스로 사용
** 이 배열의 i번째 항목은 조회 시퀀스에서 i번째 단어의 모든 발생을 가리키도록 함
** 따라서 데이터베이스를 스캔할 때 데이터베이스의 각 단어가 즉시 해당 적중으로 이어집니다. 일반적으로 204가능한 단어 중 몇 천 개만이 이 테이블에 있으며, 훨씬 적은 포인터를 사용하도록 접근 방식을 수정하는 것은 쉬움
** 두 번째 접근 방식은 결정론적 유한 오토마톤 또는 유한 상태 기계의 사용을 탐구
** 우리 구축의 중요한 특징은 상태가 아닌 전환에 수용 신호를 보내는 것(Mealy 패러다임)
** 이 방법은 시간과 공간을 절약하는 데 도움이 되었으며, 일반적인 사용을 위해 이 접근 방식을 선호
*** 전형적인 조회 길이와 매개변수 설정을 사용할 때, 이 버전의 BLAST는 단백질 데이터베이스를 약 500,000개의 잔기/초의 속도로 스캔 - 적중을 확장하여 해당 적중을 포함하는 지역적으로 최대 세그먼트 쌍을 찾는 것은 간단
** 시간을 절약하기 위해, 우리는 짧은 확장에 대해 찾은 최고 점수보다 특정 거리 이하로 떨어지는 세그먼트 쌍에 도달했을 때 한 방향으로의 확장 과정을 종료
** 이는 보장된 MSPs를 찾는 이상에서 추가적인 벗어남을 도입하지만, 추가된 부정확성은 실험과 분석을 통해 무시할 수 있을 만큼 작음(예를 들어, 단백질 비교의 경우 기본 거리는 20이고 더 높은 점수의 확장을 놓칠 확률은 약 0.001)
3. Results
- BLAST 결과 섹션 상세 설명
(a) 무작위 시퀀스와의 BLAST 성능
- 무작위 시퀀스 비교에서 MSP 점수의 분포에 관한 이론적 결과를 바탕으로, 개별 잔기의 발생 확률과 잔기 쌍을 정렬할 때의 점수 세트를 고려하여, MSP 점수의 통계적 유의성을 평가할 수 있는 두 파라미터(λ와 K)를 제공
- 두 무작위 시퀀스를 비교할 때, 특정 점수 S 이상의 세그먼트 쌍을 찾을 확률이 제공되며, 이는 두 시퀀스가 여러 개의 구별되는 유사성 영역을 공유할 때, 개별적으로 통계적으로 유의미하지 않은 세그먼트 쌍이라도 유의미한 관련성을 갖는 것으로 탐지될 수 있음을 나타냄
(b) 단어 길이와 임계값 매개변수 선택
- BLAST를 실행할 때 특정 단어 길이(w)와 임계값(T) 매개변수를 어떻게 선택할지에 대한 기준을 설명
- 단어 길이는 BLAST 실행 시간에 영향을 미치며, 더 긴 단어를 검사할수록 잠재적인 MSP에 대한 정보가 증가
- 따라서, 주어진 민감도 수준을 유지하면서 단계 3에서 소요되는 시간을 줄이기 위해 w 매개변수를 증가시킬 수 있음
- 그러나 w가 큰 경우에는 단어 목록을 컴파일하는 데 더 많은 시간이 소요되고 메모리 요구량도 증가
-
단백질 검색의 경우, 단어 크기 4가 최적의 타협점이라는 것을 발견
- 임계값 T를 낮추면 BLAST에 의한 MSP 점수의 근사치가 개선되지만 실행 시간이 증가
- 따라서 민감도와 시간 사이에서 합리적인 타협점을 제공하는 T 값에 대한 데이터를 제공
(c) BLAST를 이용한 유사 시퀀스 성능 분석
- 실제 데이터에서 BLAST의 성능을 분석하기 위해 다양한 단백질을 각각의 슈퍼패밀리와 비교
- 단어 길이 4와 다양한 T 매개변수 설정을 사용하여 진정한 MSP 점수와 BLAST 근사치를 계산
- 멀리 관련된 단백질이 많이 포함된 슈퍼패밀리만이 이전 섹션의 무작위 모델과 유용하게 비교
(d) 두 긴 DNA 시퀀스 비교
- 73360 bp 인간 게놈 섹션과 해당하는 44595 bp 토끼 게놈 섹션을 비교하여, 유전자, 긴 삽입 반복 그리고 예상된 약한 유사성 등 세 가지 주요 클래스의 지역적으로 유사한 영역을 조사
- BLAST 알고리즘은 간격 없이 정렬할 수 있는 지역적으로 유사한 영역을 찾는 데 사용
- BLAST는 무작위 시퀀스와 실제 유사 시퀀스 모두에서 높은 성능을 보여주며, 특히 긴 DNA 시퀀스를 비교하는 데 효과적인 도구임을 보여줌
4. Conclusion
- BLAST의 기본 개념은 단순하고 견고하여 다양한 방식으로 구현되고 여러 맥락에서 활용될 수 있음
- BLAST는 빠른 데이터베이스 검색 프로그램을 구축할 수 있으며, 수학적 분석에 적합한 추가적인 이점을 제공
- 기본 아이디어의 변형과 대안적 구현을 통해 이 방법은 다양한 상황에 맞게 조정될 수 있음
- 시퀀스 데이터베이스의 크기가 증가함에 따라 BLAST는 분자생물학자에게 귀중한 도구
- BLAST의 C 프로그래밍 언어 버전은 요청 시 저자로부터 제공받을 수 있으며, BSD와 AT&T System V UNIX 운영 체제에서 실행