10.BLAST

From Bioinformatik Wiki

Grundlagen

a: Was ist BLAST?

  • Basic local alignment search tool
  • Schnelle Suche einer Sequenz in einer Sequenzdatenbank
  • Sequenz wird zur Suche in Teilsequenzen zerlegt
  • kann zur Strukur- und Funktionsvorhersage dienen


b: Auf welchem Prinzip beruht BLAST? Erkläre die Funktionsweise.

Er sucht nach homologen Sequenzen in der Datenbank und berechnet zusätzlich eine statistische Signifikanz

Die Idee des Algorithmus basiert auf der Wahrscheinlichkeit, dass Alignment mit vielen Treffern auch viele zufällig ausgewählte Stücke von großerer Identität (im Sinne von identisch) besitzen. Diese gefunden Teilstücke werden dann während der Suche nach besseren und längeren Alignments weiter vergrößert. Indem diese Segmente kurz gehalten werden, ist es möglich, die Abfragesequenz vor einer Suche zu bearbeiten. Dadurch kann eine Tabelle mit möglichen Teilstücken mit ihrem Ursprung in der Orginalsequenz vorgehalten werden.

Dabei stellt der Algorithmus eine Liste aller benachbarten Worte fester Länge auf, die einen Treffer auf der Abfragesequenz mit einem höheren Scoring als ein zu wählender Parameter erzeugen würden. Anschließend wird die Zieldatenbank nach Wörtern in dieser Liste abgefragt und die gefundenen Treffer erweitert, um mögliche maximal zusammenhängende Treffer -in beide Richtungen- zu finden.

Der Ablauf dafür ist:

  • 1. Die 'query' Sequenz wird in Worte der Länge 'l' zerlegt (l = 3 für Proteine; l = 11 für DNA)
  • 2. Für jedes Wort wird eine Liste ähnlicher Wörter (w-mers) mit Score S>Threshold erzeugt (Threshold=13 bei Aminosäuresequenzen; basierend auf der BLOSUM62 Matrix)
  • 3. Alle w-mers der Liste werden in der Datenbank gesucht und die Position bestimmt
  • 4. Die Treffer werden erweitert, bis der Score kleiner wird
  • 5. Ist der Score größer als der cutoff, handelt es sich um ein 'high-scoring-pair' (HSP)
  • 6. HSPs werden durch lokales Alignment erweiter (Smith Waterman), der echte Alignment Score wird berechnet. Gaps können nun berücksichtig werden.
BLOSUM62 MATRIX.png



c: Um was für einen Algorithmus handelt es sich bei BLAST? Nenne einen Vor- und einen Nachteil.

  • heuristischer Algorithmus
Vorteil: schnell
Nachteil: nichts zwangsläufig das beste Alignment wird gefunden, abhängig von den Eingangsparametern; kann Fusionproteine nicht finden


d: Bestimme manuell für die Sequenz 'PRAKTIKA' sämtliche w-mers der Länge 3, die bei Verwendung der BLOSUM62 Matrix einen Score T>13 besitzen.

BLAST1.jpeg



Durchführung

Datensatz vom 06/2020

Du erhälst folgende Sequenz:

MQIELSTCFFLCLLRFCFSATRRYYLGAVELSWDYMQSDLGELPVDARFPPRVPKSFPFNTSVVYKKTLFVE FTDHLFNIAKPRPPWMGLLGPTIQAEVYDTVVITLKNMASHPVSLHAVGVSYWKASEGAEYDDQTSQREK EDDKVFPGGSHTYVWQVLKENGPMASDPLCLTYSYLSHVDLVKDLNSGLIGALLVCREGSLAKEKTQTLH KFILLFAVFDEGKSWHSETKNSLMQDRDAASARAWPKMHTVNGYVNRSLPGLIGCHRKSVYWHVIGMGT TPEVHSIFLEGHTFLVRNHRQASLEISPITFLTAQTLLMDLGQFLLFCHISSHQHDGMEAYVKVDSCPEEPQ LRMKNNEEAEDYDDDLTDSEMDVVRFDDDNSPSFIQIRSVAKKHPKTWVHYIAAEEEDWDYAPLVLAPDD RSYKSQYLNNGPQRIGRKYKKVRFMAYTDETFKTREAIQHESGILGPLLYGEVGDTL


Starte nun den BLAST-Server des NCBI. Achte darauf, als Algorithmus unter Program Selection 'blastp (protein-protein BLAST)' auszuwählen.


a: Gib die Sequenz ein und starte die Suche. Um welches Protein handelt es sich? Welche Domänen enthält es?

Coagulation faktor VIII (Homo sapiens)
Domäne: Cupredoxin 1,2,3 und Multicopper Oxi- dase


Suche nun in einer geeigneten Datenbank nach dem Protein. (Uniprot)


b: Welche molekulare Funktion hat das Protein und an welchen biologischen Prozessen ist es beteiligt? An welcher Krankheit ist es beteiligt?

Molekulare Funktion: Kupferion- bindend und besitzt eine Oxidoreduktase Aktivität.

Biologische Prozesse:
Akute-Phase-Antwort: eine akute entzündliche Reaktion, die nicht Antikörperproteine beinhaltet. Deren Konzentration steigt aufgrund einer Verletzung oder Infektion an
Blutgerinnung
Aktivierung der Blutplättchen ( bei Blutgerinnung)
Vesikel Ummantelung
Transport: Endoplasmatisches Retikulum zum Golgi
Krankheit: 
Hämophilie A (häufige, rezessive X-chromosomale Koagulationsstörung)