6 Normalisierungen: Difference between revisions
Line 152: | Line 152: | ||
Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil | Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss: | ||
<math>\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)</math> <br> | <math>\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)</math> <br> |
Revision as of 18:54, 5 October 2020
Normalisierungen
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können.
RPKM
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken.
Formel | Parameter |
---|---|
[math]\displaystyle{ RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} }[/math] | ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' Li = Länge des Transkripts/Gens 'i' in kbp |
[math]\displaystyle{ \frac{ c_\text{i}}{L_\text{i}} }[/math] → Normalisierung der Genlänge
[math]\displaystyle{ L_\text{i} \cdot N }[/math] → Normalisierung der Sequenziertiefe
Je höher der RPKM-Wert ist, desto höher ist die Genexpression.
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.
Beispiel:
- [math]\displaystyle{ RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} }[/math]
- [math]\displaystyle{ RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} }[/math]
- [math]\displaystyle{ RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} }[/math]
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.
TPM
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken.
Formel | Parameter |
---|---|
[math]\displaystyle{ TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 }[/math] |
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' Li = Länge des Transkripts/Gens 'i' in bp |
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'.
Beispiel:
- [math]\displaystyle{ TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 }[/math]
- [math]\displaystyle{ TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 }[/math]
- [math]\displaystyle{ TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 }[/math]
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.
TMM
TMM steht für 'Trimmed mean of M-values normalization method'.
Probleme von RPKM und TPM:
- Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen.
- Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.
Lösung:
→ TMM als Normalisierungsmethode zwischen Proben
- Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen.
- Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
- Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.
1. Bestimmung des Gewichtungsfaktors für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt.
Formel | Parameter |
---|---|
[math]\displaystyle{ W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} }[/math] | Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' Nk = Gesamtanzahl an reads für Probe 'k' |
2. Mittelwert aller Expressionsverhältnisse wird berechnet.
Formel | Parameter |
---|---|
[math]\displaystyle{ M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} }[/math] | Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' Nk = Gesamtanzahl an reads für Probe 'k' |
3. Gewichtete Mittelwerte aller Expressionsverhältnisse können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.
Formel | Parameter |
---|---|
[math]\displaystyle{ log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} }[/math] | [math]\displaystyle{ M_\text{gk}^\text{k`} = }[/math] Mittelwerte aller Expressionsverhältnisse [math]\displaystyle{ W_\text{gk}^\text{k`} = }[/math] Gewichtungsfaktor der Expressionsverhältnisse |
Bedingungen für dieses Verfahren:
- Ygk , Ygk' > 0
- Die oberen und unteren 30 % der [math]\displaystyle{ M_\text{gk}^\text{k`} }[/math] Werte werden nicht berücksichtigt
- Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt
Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins
Gen Zustand 1[bp] Zustand 2[bp] A 200 600 B 600 0 C 800 960 D 400 480 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen Summe 2000 1680
Folgende Dinge gelten nun: * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.
* Zuerst normalisiert man die Counts innerhalb der Probe Ya/N Yb/N A [math]\displaystyle{ \frac{200}{2000}=0,1 }[/math] [math]\displaystyle{ \frac{240}{1680}=0,143 }[/math] B [math]\displaystyle{ \frac{600}{2000}=0,3 }[/math] [math]\displaystyle{ \frac{0}{1680}=0 }[/math] C [math]\displaystyle{ \frac{800}{2000}=0,4 }[/math] [math]\displaystyle{ \frac{960}{1680}=0,571 }[/math] D [math]\displaystyle{ \frac{400}{2000}=0,2 }[/math] [math]\displaystyle{ \frac{2480}{1680}=0,286 }[/math]
* Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse Ma/b A [math]\displaystyle{ log_{2} \frac{0,143}{0,1}=0,516 }[/math] B [math]\displaystyle{ log_{2} \frac{0}{0,3}= 'Inf' }[/math] (also infinity, unendlich und damit unmögich zum rechnen) C [math]\displaystyle{ log_{2} \frac{0,571}{0,4}=0,513 }[/math] D [math]\displaystyle{ log_{2} \frac{0,286}{0,2}=0,516 }[/math] *kleiner Praxistipp von eurem Admin: [math]\displaystyle{ log_{2} }[/math] ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein.
*Nun kommt der Gewichtungsfaktor ins Spiel Wa/b A [math]\displaystyle{ \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081 }[/math] B [math]\displaystyle{ \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf' C \lt math\gt \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012 }[/math] D [math]\displaystyle{ \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035 }[/math] Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus Summe 0,0128
*Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor) A 0,516 * 0,081 = 0,0042 B - C 0,513 * 0,0012 = 0,0006 D 0,516 * 0,0018 = 0,0018 Auch hier einfach schonmal direkt die Summe ausrechnen Summe 0,0066
Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:
[math]\displaystyle{ \frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM) }[/math]
[math]\displaystyle{ \frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM) }[/math]
[math]\displaystyle{ \frac{0,0066}{0,0128}=0,51=log_{2}(TMM) }[/math] * Jetzt noch ein alte Mathe-Taschenspielertrick: [math]\displaystyle{ log_{2}(TMM)= x }[/math] [math]\displaystyle{ 2^{x} = TMM }[/math] [math]\displaystyle{ 2^{0,51} = 1,4296 }[/math]