11.BLAST II

From Bioinformatik Wiki

Datenanalyse

a: Was ist das Problem bei der Bewertung von BLAST Ergebnissen?

  • Der Score hängt auch von der Sequenzlänge, der Substitutionsmatrix und gap penalty ab und kann deshalb nicht direkt verglichen werden.


b: Was ist der Bit-Score und wie wird er berechnet?

  • log_2 skalierte Version des normalisierten Scores
  • Durch folgende Formel berechnet:
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle S' = \frac{\lambda S-ln(k)}{ln(2)}}

λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.

c: Wie ist der Suchraum definiert? In welchem Zusammenhang steht dieser mit dem Bit-Score? Der Suchraum N ist durch folgende Formel definiert:

N = n * m 
n = Länge der ’query’ Sequenz und m = Länge der Datenbank
  • Der Bit-Score beschreibt die Größe des Suchraums, der zufällig einen Treffer mit gleichem oder besseren Bit- Score enthält.

d: Was gibt der e-value an und wie wird er berechnet? Sind e-values, die an verschiedenen Tagen errechnet wurden, vergleichbar?

  • Der e-value oder expectation value korrigiert den P-Value für einen Suchraum der Größe N. Es ist die Wahrscheinlichkeit, dass ein Ereignis im Suchraum N durch Zufall eintritt.
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle P = {2^{-S'}} E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}} }
  • An verschiedenen Zeitpunkten berechnete e-values sind nicht vergleichbar, weil die Größe der Datenbank m an verschiedenen Zetipunkten unterschiedlich sein kann. Die Wahrscheinlichkeit für einen Zufallstreffer ist umso höher, je größer die Datenbank war, in der der e-Value bestimmt wurde.

Durchführung

Datensatz vom 06/2020

Du erhältst folgende Sequenz:

MSKTQEFRPLTLPPKLSLSDFNEFIQDIIRIVGSENVEVISSKDQIVDGSYMKPTHTHDPHHVMDQDYFLAS AIVAPRNVADVQSIVGLANKFSFPLWPISIGRNSGYGGAAPRVSGSVVLDMGKNMNRVLEVNVEGAYCVV EPGVTYHDLHNYLEANNLRDKLWLDVPDLGGGSVLGNVERGVGYTLFPYGFGPYIDGLFSQSNMGIVTK IGIWLMPNPRGYQSYLITLPKDGDLKQAVDIIRPLRLGMALQNVPTIRHILLDAAVLGDKRSYSSRTEPLSD EELDKIAKQLNLGRWNFYGALYGPEPIRRVLWETIKDAFSAIPGVKFYFPEDTPENSVLRVRDKTMQGIPT YDELKWIDWLPNGAHLFFSPIAKVSGEDAMMQYAVTKKRCQEAGLDFIGTFTVGMREMHHIVCIVFNKKDLIQ

Starte nun den BLAST-Server des NCBI. Achte darauf, als Algorithmus unter Program Selection „ blastp (protein-protein BLAST)“ auszuwählen.

a: Gib die Sequenz ein und starte die Suche. Um welches Protein handelt es sich?

Vanillyl-alcohol Oxidase


b: Wie hoch sind der e-value und der bit-score? Was bedeutet dieser e-value? Wie groß wäre der hier benötigte Suchraum um einen zufälligen Treffer mit diesem score zu finden?

  • e-value geht gegen 0 → Wahrscheinlichkeit, dass das Ergebnis durch Zufall gefunden wurde. Da der Wert so klein ist, ist die Irrtumswahrscheinlichkeit minimal.
  • bit-Score=852
  • Suchraum= N = 2^{852} =3.003 * 10^{256}


c: Welche Parameter sind außerdem signifikant?

  • Die Abdeckung: Anteil der Aminosäuren der ’query’ Sequenz, die beim Vergleich abgedeckt wurden
  • Identität: Anteil der verglichenen Aminosäuren, die tatsächlich identisch sind


Starte eine neue Suche. Wähle in dem eingeklappten Menü „Algorithm parameters“ im Bereich „Scoring parameters“ unter „Compositional adjustments“ die Einstellung „No adjustment“ aus. Führe nun BLAST nacheinander mit der BLOSUM80-Matrix und der BLOSUM45-Matrix aus. Speichere den Anfang der jeweiligen Tabelle und vergleiche die Ergebnisse.

d: Wie unterscheiden sich die Parameter?

  • BLOSUM 45: Niedrigerer Score, Höherer e-value (untere Tabelle)
  • BLOSUM 80: Höherer Score und niedrigerer e-value bei BLOSUM 80; insgesamt weniger Ergebnisse (obere Tabelle)
Die Erstellung von BLOSUM X basiert auf dem Sequenzvergleich von solchen Sequenzen, die zu mind. X% verwandt sind. Bei BLOSUM80 wurden also näherverwandte Sequenzen verglichen als bei BLOSUM45, weswegen höhere Scores in der Diagonalen vorhanden sind.
BLAST2.jpeg