10 BLAST
From Bioinformatik Wiki
Suche nach homologen Sequencen in Datenbanken
Biologische Fragestellung: Eine humane Aminosäuresequenz (416 AS) mit bislang unbekannter Funktion soll mit dem E. Coli Proteom verglichen werden, um eventuell Schlussfolgerungen auf Aufbau und Funktion ziehen zu können.
Das E. Coli Proteom besteht aus 4300 Proteinen, die jeweils ca. 300 AS lang sind
Matrixgröße für Smith-Waterman : 4300 * 300 * 416 = 536164000000 (5,4 * 10^11) mit 4 Byte --> 2.1 GB Speicher (Also sehr datenlastig und rechenintensiv)
- Lösung: Heuristischer Algorithmus (Hervorragende Definiton von Heuristik unter https://de.wikipedia.org/wiki/Heuristik)
Vorteil: Weniger Rechenintensiv und deswegen können auch zwangsläufig größere Datenmengen durchsucht werden
Nachteil: Produziert nicht nur optimale Ergebnisse, da zwangsläufig Kompromisse & Vereinfachungen bei den Parametern eingegangen werden müssen, da das Ergebnis der Suche naturgemäß nicht bekannt sein kann