11.BLAST II

From Bioinformatik Wiki
Revision as of 20:25, 4 October 2020 by Pge (talk | contribs) (Created page with "== Datenanalyse == '''a''': Was ist das Problem bei der Bewertung von BLAST Ergebnissen? *Der Score hängt auch von der Sequenzlänge, der Substitutionsmatrix und gap penal...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Datenanalyse

a: Was ist das Problem bei der Bewertung von BLAST Ergebnissen?

  • Der Score hängt auch von der Sequenzlänge, der Substitutionsmatrix und gap penalty ab und kann deshalb nicht direkt verglichen werden.


b: Was ist der Bit-Score und wie wird er berechnet?

  • log_2 skalierte Version des normalisierten Scores


λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.

c: Wie ist der Suchraum definiert? In welchem Zusammenhang steht dieser mit dem Bit-Score? Der Suchraum N ist durch folgende Formel definiert:

N = n * m 


n=Länge der ’query’ Sequenz und m=Länge der Datenbank


Der Bit-Score beschreibt die Größe des Suchraums, der zufällig einen Treffer mit gleichem oder besseren   Bit- Score enthält.

d: Was gibt der e-value an und wie wird er berechnet? Sind e-values, die an verschiedenen Tagen errechnet wurden, vergleichbar?

  • Der e-value oder expectation value korrigiert den P-Value für einen Suchraum der Größe N. Es ist die Wahrscheinlichkeit, dass ein Ereignis im Suchraum N durch Zufall eintritt.
  • An verschiedenen Tagen berechnete e-values sind nicht vergleichbar, weil die Größe der Datenbank m an verschiedenen Tagen unterschiedlich sein kann. Die Wahrscheinlichkeit, dass ein Treffer durch Zufall gefunden wurde, ist umso höher, je größer die Datenbank war, mit der der e-Value bestimmt wurde.

Durchführung

Du erhältst folgende Sequenz:

MSKTQEFRPLTLPPKLSLSDFNEFIQDIIRIVGSENVEVISSKDQIVDGSYMKPTHTHDPHHVMDQDYFLAS AIVAPRNVADVQSIVGLANKFSFPLWPISIGRNSGYGGAAPRVSGSVVLDMGKNMNRVLEVNVEGAYCVV EPGVTYHDLHNYLEANNLRDKLWLDVPDLGGGSVLGNVERGVGYTLFPYGFGPYIDGLFSQSNMGIVTK IGIWLMPNPRGYQSYLITLPKDGDLKQAVDIIRPLRLGMALQNVPTIRHILLDAAVLGDKRSYSSRTEPLSD EELDKIAKQLNLGRWNFYGALYGPEPIRRVLWETIKDAFSAIPGVKFYFPEDTPENSVLRVRDKTMQGIPT YDELKWIDWLPNGAHLFFSPIAKVSGEDAMMQYAVTKKRCQEAGLDFIGTFTVGMREMHHIVCIVFNKKDLIQ

Starte nun den BLAST-Server des NCBI. Achte darauf, als Algorithmus unter Program Selection „ blastp (protein-protein BLAST)“ auszuwählen.

a: Gib die Sequenz ein und starte die Suche. Um welches Protein handelt es sich?

Vanillyl-alcohol Oxidase


b: Wie hoch sind der e-value und der bit-score? Was bedeutet dieser e-value? Wie groß wäre der hier benötigte Suchraum um einen zufälligen Treffer mit diesem score zu finden?


e-value geht gegen 0

  • Wahrscheinlichkeit, dass das Ergebnis durch Zufall gefunden wurde. Da der Wert so klein ist, ist die Irrtumswahrscheinlichkeit minimal.
bit-Score=852
Suchraum= N = 2 852 =3,003*10 256


c: Welche Parameter sind außerdem signifikant?

  • Die Abdeckung: Anteil der Aminosäuren der ’query’ Sequenz, die beim Vergleich abgedeckt wurden *Identität: Anteil der verglichenen Aminosäuren, die tatsächlich identisch sind


Starte eine neue Suche. Wähle in dem eingeklappten Menü „Algorithm parameters“ im Bereich „Scoring parameters“ unter „Compositional adjustments“ die Einstellung „No adjustment“ aus. Führe nun BLAST nacheinander mit der BLOSUM80-Matrix und der BLOSUM45-Matrix aus. Speichere den Anfang der jeweiligen Tabelle und vergleiche die Ergebnisse.

d: Wie unterscheiden sich die Parameter?

  • Niedrigerer Score und höherer e-value bei BLOSUM 45 (untere Tabelle)
  • Insgesamt weniger Ergebnisse, höherer Score und niedrigerer e-value bei BLOSUM 80 (obere Tabelle)
Die Erstellung von BLOSUM X basiert auf dem Sequenzvergleich von solchen Sequenzen, die zu mind. X% verwandt sind. Bei BLOSUM80 wurden also näherverwandte Sequenzen verglichen als bei BLOSUM45, weswegen höhere Scores in der Diagonalen vorhanden sind.