11 BLAST II: Difference between revisions

From Bioinformatik Wiki
(Math Fix)
 
(13 intermediate revisions by 2 users not shown)
Line 16: Line 16:
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''


* Lösung: '''Bit score'''
 
Lösung: '''Bit score'''
* log_2 skalierte Version des normalisierten Scores
* log_2 skalierte Version des normalisierten Scores
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält


Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)
Ein Bit score von 20 würde bedeuten, dass ein Suchraum der Größe <math>2^{20}</math> durchsucht werden müsste, um den Score zufällig zu finden. (<math>2^{20}</math> = 1.048.576)


[File:BLAST3.jpeg|200px|center|thumb]]<br />
<center><math> S' = \frac{\lambda S-ln(k)}{ln(2)}</math></center>
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.


λ und k sind Karlin-Altschul-Parameter und ergeben sich aus der Scoring-Funktion.
Der Suchraum ist definiert als:
  N = n * m  
  N = n * m  


n = Länge der ’query’ Sequenz und m = Länge der Datenbank
'''Parameter'''<br>
 
n = Länge der ’query’ Sequenz <br>
m = Länge der Datenbank


  Bsp: n=125        m=10.000          N=1.250.000
  Bsp: n=125        m=10.000          N=1.250.000
  In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden
  In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden
== P-Value ==
'''P-Value:''' Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt
<math>P = {2^{-S'}}</math>
Beispiel:
Bitscore = 20 
<center><math> P = \frac{ 1}{2^{20}}=\frac{ 1}{1.048.576} </math></center>




== P-Value ==
'''E-Value (Expect):''' P-Value korrigiert für Suchraum der Größe N
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''
 
S'=Bitscore
<math>  
<math>
E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}
      P = {2^{-S'}}
</math>
 
<math>
E = \frac{ 1.250.000}{1.048.576} = 1,19
</math>
</math>


Bitscore = 20  -->   <math> P = {1/1048576} </math>
'''Anhaltspunkt:''' E-Value von <math> 10^{-5} </math> bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von <math> 10^{-5} </math> durch Zufall gefunden würde.

Latest revision as of 16:00, 11 June 2024

Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind

Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis.

Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden?

Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value? https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ#expect

Bewertung von BLAST Ergebnissen

Score 'S'

     L  A  S  V  -  E            BLOSUM62 gap penalty = -4     
     L  T  S  L  A  Q
S = +4  0 +4 +1 -4 +2 = 7

Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden


Lösung: Bit score

  • log_2 skalierte Version des normalisierten Scores
  • Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält

Ein Bit score von 20 würde bedeuten, dass ein Suchraum der Größe [math]\displaystyle{ 2^{20} }[/math] durchsucht werden müsste, um den Score zufällig zu finden. ([math]\displaystyle{ 2^{20} }[/math] = 1.048.576)

[math]\displaystyle{ S' = \frac{\lambda S-ln(k)}{ln(2)} }[/math]

λ und k sind Karlin-Altschul-Parameter und ergeben sich aus der Scoring-Funktion. Der Suchraum ist definiert als:

N = n * m 

Parameter
n = Länge der ’query’ Sequenz
m = Länge der Datenbank

Bsp: n=125        m=10.000          N=1.250.000
In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden

P-Value

P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt

[math]\displaystyle{ P = {2^{-S'}} }[/math] Beispiel:

Bitscore = 20

[math]\displaystyle{ P = \frac{ 1}{2^{20}}=\frac{ 1}{1.048.576} }[/math]


E-Value (Expect): P-Value korrigiert für Suchraum der Größe N

[math]\displaystyle{ E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}} }[/math]

[math]\displaystyle{ E = \frac{ 1.250.000}{1.048.576} = 1,19 }[/math]

Anhaltspunkt: E-Value von [math]\displaystyle{ 10^{-5} }[/math] bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von [math]\displaystyle{ 10^{-5} }[/math] durch Zufall gefunden würde.