10 BLAST

From Bioinformatik Wiki

Suche nach homologen Sequencen in Datenbanken

Biologische Fragestellung: Eine humane Aminosäuresequenz (416 AS) mit bislang unbekannter Funktion soll mit dem E. Coli Proteom verglichen werden, um eventuell Schlussfolgerungen auf Aufbau und Funktion ziehen zu können.

Das E. Coli Proteom besteht aus 4300 Proteinen, die jeweils ca. 300 AS lang sind

Matrixgröße für Smith-Waterman : 4300 * 300 * 416 = 536164000000 (5,4 * 10^11)
mit 4 Byte --> 2.1 GB Speicher (Also sehr datenlastig und rechenintensiv)


Vorteil: Weniger Rechenintensiv und deswegen können auch zwangsläufig größere Datenmengen durchsucht werden
Nachteil: Produziert nicht nur optimale Ergebnisse, da zwangsläufig Kompromisse & Vereinfachungen bei den Parametern eingegangen werden müssen, da das Ergebnis der Suche naturgemäß nicht bekannt sein kann

Substitutionsmatritzen

Eine Sustitutionsmatrix basiert auf der Annahme, dass eine relative Rate gibt, in der eine Aminosäure im Laufe der Evolution in eine andere mutiert. So können innerhalb eines Proteins viele Aminosäuren ausgetauscht werden, ohne dass sich dadurch die Eigenschaften des Proteins ändert. Die ist vor allem deswegen erklärbar, weil viele Aminosäuren ähnliche chemische Eigenschaften, funktionelle Gruppen etc. besitzen. Umgekehrt kann eine einzige mutierte Aminosäure, wenn sie erheblich andere Eigenschaften hat, das ganze Protein verändern (Wie es im Negativbeispiel bei Erbkrankheiten oft der Fall ist) .

Es ist nun also möglich hier Annahmen zu treffen wie wahrscheinlich eine Austausch ist. Dabei wird der Score jetzt nun nicht mehr nur match/mismatch entschieden, sondern um eine Interpretationsebene erweitert, indem bei der Score je nach AS-Kombination festgelegt wird. Durch die Verwendung unterschiedlicher Matrizen und Parameter können damit Kompromisse und Vereinfachungen eingegangen werden.

Nachlesen Substitutionsmatrix: https://de.wikipedia.org/wiki/Substitutionsmatrix

Beispiele Aminosäuren

BLOSUM.jpeg


A1:

 A S P I V
 A T P V V
Nun entsprechend Werte in BLOSUM Matrix nachschlagen: A+A=4 S+T=1 P+P=7 I+V=3 V+V=4
+4+1+7+3+4 = 19 

A2:

 A S P I V
 A V P G V
+4-2+7-4+4 = 9
BLOSUM62 MATRIX.png


Der Score von A1 sieht vielversprechender aus als der Score von A2

BLOSUM Matritzen mit hohen Zahlen (BLOSUM80) werden für nah verwandte Organismen verwendet, während BLOSUM Matritzen mit niedrigeren Zahl (BLOSUM40) für weit entfernte Organismen verwendet werden können. So wurde für die BLOSUM80 Matrix Sequenzen mit mehr als 80% Identität zusammengefügt, sodass alle verbleibenden Sequenzen untereinander verglichen weniger als 80% Identität hatten (gleiches gilt entsprechend für die anderen BLOSUM x% Matritzen)

BLAST

  • Basic local alignment search tool
  • Überbegriff für eine Sammlung der weltweit am meisten genutzten Programme zur Analyse biologischer Sequenzdaten
  • Liefert eine schnelle Suche einer Sequenz in einer Sequenz-Datenbank
  • Es dient zur Struktur- und Funktionsvorhersage.

Grundgerüst des Algorithmus:

  • 1. Zerlege 'query' (hier unbekanntes humanes Protein) in Worte der Länge 'l' (l=3 für Proteine; l=11 für DNA)
PQGSVEP
PQG
 QGS
  GSV
   SVE
    VEP
  • 2. Erzeuge für jedes Wort eine Liste ähnlicher Sequenzen mit Score 'W'. W > Threshold (Threshold=13 für AS-Sequenzen basierend auf BLOSUM)
 P Q G
 P Q G
+7+5+6=18
 P E G (Da Q durch E ausgetauscht worden ist)
+7+2+6=15
 P K G
+7+1+6=14
 P S G
+7+0+6=13
 P T G
+7-1+6=12 (Und damit ist der Threshold T=13 unterschritten)

Auf diese Weise gibt es aus Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle 20^3} Kombinationsmöglichkeiten eine Liste mit meist weniger als 50 Kombinationen, bei denen der Threshold nicht unterschritten wird.

  • 3. Suche alle Wörter aus dieser Liste in der Datenbank (Hier: E. Coli Proteom) und bestimme die Position. Erweitere nun Treffer nach links & rechts bis der Score dieser Erweiterungen kleiner wird (genannt 'Score').
  • 4. Wenn der Score 'Score' größer ist als der -zu definierende- cutoff score 'S', handelt es sich um ein high-scoring-pair (HSP)
...A P E G S I E I... (hier: E. coli Proteom)
     P Q G
     +15   S V E P...
          +4+3+5-3 (wird kleiner, deswegen Abbruch)
    Score: 27
    Wenn 27 größer ist als vordefinierter cutoff --> HSP
  • 5. Lokales Alignment mit Smith-Waterman: Erweitere alle HSPs durch lokale alignments soweit wie möglich und berechne 'echte' Alignment-Scores. Dabei können nun auch wieder gaps berücksichtigt werden.