6 Normalisierungen: Difference between revisions

From Bioinformatik Wiki
No edit summary
No edit summary
Line 36: Line 36:
|-
|-
|<math>  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 </math> <br> || c<sub>i</sub> = Anzahl an ausrichtbaren reads für ein Transkript 'i'<br>
|<math>  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 </math> <br> || c<sub>i</sub> = Anzahl an ausrichtbaren reads für ein Transkript 'i'<br>
L<sub>i</sub> = Länge des Transkripts/Gens 'i' in kbp <br>
L<sub>i</sub> = Länge des Transkripts/Gens 'i' in bp <br>
N = Gesamtanzahl an ausrichtbaren reads in Millionen
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|} <br>
|} <br>
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM<sub>i</sub> die Anzahl an Transkripten des Types 'i'. <br>
'''Beispiel:''' <br>
[[File:Beispiel Probe.png|Beispiel Probe]] <br><br>
*<math>  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 </math> <br>
*<math>  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 </math> <br>
*<math>  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 </math> <br>
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.


==TMM==
==TMM==
TMM steht für 'Trimmed mean of M-values normalization method'.
TMM steht für 'Trimmed mean of M-values normalization method'.<br><br>
 
'''Probleme von RPKM und TPM:''' <br>
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. <br>
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.<br>
'''Lösung:''' <br>
→ TMM als Normalisierungsmethode zwischen Proben <br>
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. <br>
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
*Genexpressionen von zwei Proben können miteinander verglichen werden.
 


<math> M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  </math>
<math> M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  </math>

Revision as of 22:29, 3 June 2019

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 5 am 16.05.2019 behandelt wurden.

Normalisierungen

Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können.

RPKM

RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken.

Formel Parameter
[math]\displaystyle{ RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} }[/math] ci = Anzahl an ausrichtbaren reads für ein Transkript 'i'

Li = Länge des Transkripts/Gens 'i' in kbp
N = Gesamtanzahl an ausrichtbaren reads in Millionen

 [math]\displaystyle{    \frac{ c_\text{i}}{L_\text{i}}  }[/math]  → Normalisierung der Genlänge 
[math]\displaystyle{ L_\text{i} \cdot N }[/math] → Normalisierung der Sequenziertiefe

Je höher der RPKM-Wert ist, desto höher ist die Genexpression.
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

Beispiel:

Beispiel Probe

  • [math]\displaystyle{ RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} }[/math]
  • [math]\displaystyle{ RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} }[/math]
  • [math]\displaystyle{ RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} }[/math]

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

TPM

TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken.

Formel Parameter
[math]\displaystyle{ TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 }[/math]
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i'

Li = Länge des Transkripts/Gens 'i' in bp
N = Gesamtanzahl an ausrichtbaren reads in Millionen


Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'.
Beispiel:
Beispiel Probe

  • [math]\displaystyle{ TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 }[/math]
  • [math]\displaystyle{ TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 }[/math]
  • [math]\displaystyle{ TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 }[/math]

Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.


TMM

TMM steht für 'Trimmed mean of M-values normalization method'.

Probleme von RPKM und TPM:

  1. Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen.
  2. Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.

Lösung:
→ TMM als Normalisierungsmethode zwischen Proben

  • Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen.
  • Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
  • Genexpressionen von zwei Proben können miteinander verglichen werden.


[math]\displaystyle{ M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} }[/math]


[math]\displaystyle{ log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} }[/math]



[math]\displaystyle{ W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} }[/math]


Der Spaß hier wird morgen erweitert, hab mich nur mit den Formeln vertraut gemacht :D _ Vero