11 BLAST II

From Bioinformatik Wiki

Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind

Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis.

Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden?

Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value? https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ#expect

Bewertung von BLAST Ergebnissen

Score 'S'

     L  A  S  V  -  E            BLOSUM62 gap penalty = -4     
     L  T  S  L  A  Q
S = +4  0 +4 +1 -4 +2 = 7

Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden


Lösung: Bit score

  • log_2 skalierte Version des normalisierten Scores
  • Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält
Ein Bit score von 20 würde bedeuten, dass ein Suchraum der Größe Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle 2^{20}}
 durchsucht werden müsste, um den Score zufällig zu finden. (Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle 2^{20}}
 = 1.048.576)
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle S' = \frac{\lambda S-ln(k)}{ln(2)}}

λ und k sind Karlin-Altschul-Parameter und ergeben sich aus der Scoring-Funktion. Der Suchraum ist definiert als:

N = n * m 

Parameter
n = Länge der ’query’ Sequenz
m = Länge der Datenbank

Bsp: n=125        m=10.000          N=1.250.000
In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden

P-Value

P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle P = {2^{-S'}}} Beispiel:

Bitscore = 20

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle P = \frac{ 1}{2^{20}}=\frac{ 1}{1.048.576} }


E-Value (Expect): P-Value korrigiert für Suchraum der Größe N

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle    E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}  }

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle    E = \frac{ 1.250.000}{1.048.576} = 1,19  }

Anhaltspunkt: E-Value von Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle 10^{-5} } bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle 10^{-5} } durch Zufall gefunden würde.