10.BLAST: Difference between revisions
From Bioinformatik Wiki
(Created page with "== Grundlagen == '''a''': Was ist BLAST? *'''B'''asic '''l'''ocal '''a'''lignment '''s'''earch '''t'''ool * Schnelle Suche einer Sequenz in einer Sequenzdatenbank * Sequenz...") |
|||
Line 14: | Line 14: | ||
*1. Die 'query' Sequenz wird in Worte der Länge 'l' zerlegt (l = 3 für Proteine; l = 11 für DNA) | *1. Die 'query' Sequenz wird in Worte der Länge 'l' zerlegt (l = 3 für Proteine; l = 11 für DNA) | ||
*2. Für jedes Wort wird eine Liste ähnlicher Wörter (w-mers) mit Score S>Threshold erzeugt (Threshold=13 bei Aminosäuresequenzen; basierend auf der | *2. Für jedes Wort wird eine Liste ähnlicher Wörter (w-mers) mit Score S>Threshold erzeugt (Threshold=13 bei Aminosäuresequenzen; basierend auf der BLOSSUM62 Matrix) | ||
*3. Alle w-mers der Liste werden in der Datenbank gesucht und die Position bestimmt | *3. Alle w-mers der Liste werden in der Datenbank gesucht und die Position bestimmt | ||
*4. Die Treffer werden erweitert, bis der Score kleiner wird | *4. Die Treffer werden erweitert, bis der Score kleiner wird | ||
*5. Ist der Score größer als der cutoff, handelt es sich um ein 'high-scoring-pair' ('''HSP''') | *5. Ist der Score größer als der cutoff, handelt es sich um ein 'high-scoring-pair' ('''HSP''') | ||
*6. HSPs werden durch lokales Alignment erweiter (Smith Waterman), der echte Alignment Score wird berechnet. Gaps können nun berücksichtig werden. | *6. HSPs werden durch lokales Alignment erweiter (Smith Waterman), der echte Alignment Score wird berechnet. Gaps können nun berücksichtig werden. | ||
[[File:BLOSSUM62 Matrix.jpg|700px|center|thumb]]<br /> |
Revision as of 19:36, 4 October 2020
Grundlagen
a: Was ist BLAST?
- Basic local alignment search tool
- Schnelle Suche einer Sequenz in einer Sequenzdatenbank
- Sequenz wird zur Suche in Teilsequenzen zerlegt
- kann zur Strukur- und Funktionsvorhersage dienen
b: Auf welchem Prinzip beruht BLAST? Erkläre die Funktionsweise.
Er sucht nach homologen Sequenzen in der Datenbank und berechnet zusätzlich eine statistische Signifikanz
- 1. Die 'query' Sequenz wird in Worte der Länge 'l' zerlegt (l = 3 für Proteine; l = 11 für DNA)
- 2. Für jedes Wort wird eine Liste ähnlicher Wörter (w-mers) mit Score S>Threshold erzeugt (Threshold=13 bei Aminosäuresequenzen; basierend auf der BLOSSUM62 Matrix)
- 3. Alle w-mers der Liste werden in der Datenbank gesucht und die Position bestimmt
- 4. Die Treffer werden erweitert, bis der Score kleiner wird
- 5. Ist der Score größer als der cutoff, handelt es sich um ein 'high-scoring-pair' (HSP)
- 6. HSPs werden durch lokales Alignment erweiter (Smith Waterman), der echte Alignment Score wird berechnet. Gaps können nun berücksichtig werden.