6.Normalisierungen: Difference between revisions

From Bioinformatik Wiki
No edit summary
(Math Fix)
 
(22 intermediate revisions by 4 users not shown)
Line 1: Line 1:
==Aufgabe 1: Grundlagen==  
==Aufgabe 1: Grundlagen==  
===a. Warum ist es notwendig RNASeq Daten zu normalisieren?===  
===a: Warum ist es notwendig RNASeq Daten zu normalisieren?===  
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. <br>
*Eliminieren von statischen Abweichungen, die durch z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren, …  entstehen
===b. Rolle der Sequenziertiefe und Genlänge===
* Heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist, würde man da fälschlicherweise annehmen, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe, dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung beachtet werden, dies ist durch Normalisierungen möglich.
* Vergleichbarkeit von Proben ermöglichen
 
===b: Rolle der Sequenziertiefe und Genlänge===
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.
 
==Aufgabe 2: RPKM und TPM==
==Aufgabe 2: RPKM und TPM==
{| class="wikitable center"
{| class="wikitable center"
Line 17: Line 21:
| D (25 kb) || 1 || 0
| D (25 kb) || 1 || 0
|}
|}
===a. Normalisierung mit RPKM===
===a: Normalisierung mit RPKM===
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'  
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'  
* Für die Normalisierung wird die Formel <math> RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> verwendet.
* Für die Normalisierung wird die Formel <math> RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} * 10^6 </math> verwendet.
'''Parameter:''' <br>
<math>  \frac{ c_\text{i}}{L_\text{i}} </math>  → Normalisierung der Genlänge <br>
c<sub>i</sub> = Anzahl an ausrichtbaren reads für ein Transkript 'i'<br>
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe  
L<sub>i</sub> = Länge des Transkripts/Gens 'i' in kbp <br>
N = Gesamtanzahl an ausrichtbaren reads in Millionen
 
  <math>  \frac{ c_\text{i}}{L_\text{i}} </math>  → Normalisierung der Genlänge <br>
  <math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe <br>
'''In dieser Aufgabe:'''<br>
c = siehe Tabelle <br>
L = siehe Tabelle <br>
N (Replikat 1) = 18 | N (Replikat 2) = 60 <br>
'''Beispiel Gen A, Replikat 1:''' <br>
'''Beispiel Gen A, Replikat 1:''' <br>
<math> RPKM (A1) =  \frac{ 5}{7 kb \cdot 18} = 0,0397 </math>
<math> RPKM (A1) =  \frac{ 5}{7 kb \cdot 18} * 10^6 = 3,97 * 10^4</math>
{| class="wikitable center"
{| class="wikitable center"
|-
|-
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
|-
|-
| A || 0,0397 || 0,0381
| A || 3,97 * 10^4 || 3,81 * 10^4
|-
|-
| B || 0,0463 || 0,05
| B || 4,63 * 10^4 || 5 * 10^4
|-
|-
| C || 0,2222 || 0,2667
| C || 2,222 * 10^5 || 2,667 * 10^5
|-
|-
| D || 0,0022 || 0
| D || 2,2 * 10^3 || 0
|}
|}
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert.
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird.  
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.  
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können. Die Summe aller RPKMs ergibt nicht 100 % und kann somit keine Anteile am Ganzen widerspiegeln.
===b. Normalisierung mit TPM===
 
===b: Normalisierung mit TPM===
* TPM steht für 'Transcripts per Million.  
* TPM steht für 'Transcripts per Million.  
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Im gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. <br>
* Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt.<br>
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.  
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.  
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben 1 Million.
* Für die Normalisierung wird die Formel <math>  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 </math> verwendet.
* Für die Normalisierung wird die Formel <math>  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 </math> verwendet.
'''Parameter:''' <br>
'''Parameter:''' <br>
c<sub>i</sub> = Anzahl an ausrichtbaren reads für ein Transkript 'i'<br>
c<sub>i</sub> = Anzahl an ausrichtbaren reads für ein Transkript 'i'<br>
L<sub>i</sub> = Länge des Transkripts/Gens 'i' in kbp <br>
L<sub>i</sub> = Länge des Transkripts/Gens 'i' in bp <br>
N = Gesamtanzahl an ausrichtbaren reads in Millionen <br>
N = Gesamtanzahl an ausrichtbaren reads in Millionen <br><br>
'''Beispiel Gen A, Replikat 1:''' <br>
'''Beispiel Gen A, Replikat 1:''' <br>
<math>  TPM (A1) =  \frac{ 5}{7000}  \cdot  \dfrac {1}{ \dfrac {5}{7000} +  \dfrac {10}{12000} +  \dfrac {2}{500} + \dfrac {1}{25000}}  \cdot 10^6  = 127834 </math> <br>
<math>  TPM (A1) =  \frac{ 5}{7000}  \cdot  \dfrac {1}{ \dfrac {5}{7000} +  \dfrac {10}{12000} +  \dfrac {2}{500} + \dfrac {1}{25000}}  \cdot 10^6  = 127834 </math> <br>
Line 72: Line 69:
|}
|}


===c. Anwendungsbereich===
===c: Anwendungsbereich===
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen.
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb einer Probe.
 
==Aufgabe 3: Normalisierung zwischen Proben==
==Aufgabe 3: Normalisierung zwischen Proben==
==a. Normalisierungsmethode==
==a: Normalisierungsmethode==
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
==b. Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen, z.B. ob es in Krebszellen stärker, oder schwächer exprimiert wird, als in gesunden Zellen.
* Um das relative RNA-Produktionsniveau aus RNASeq-Daten abzuschätzen
* Es können heterologe Geneigenschaften zwischen 2 Proben auftauchen und eine identische Genexpression, fälschlicherweise, als unterschiedlich erkannt werden
* Beispiel: Expression zwischen gesunden und kranken Patienten soll auf bestimmte Marker untersucht werden
 
==c. Normalisierung mit TMM==
==c. Normalisierung mit TMM==
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. <br>
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. <br>
Line 107: Line 108:
| <math> log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}  W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse <br>
| <math> log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}  W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse <br>
<math>  W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse <br>
<math>  W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse <br>
G = Set aller Gene
G = Menge aller Gene
|}
|}



Latest revision as of 16:02, 11 June 2024

Aufgabe 1: Grundlagen

a: Warum ist es notwendig RNASeq Daten zu normalisieren?

  • Eliminieren von statischen Abweichungen, die durch z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren, … entstehen
  • Heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen
  • Vergleichbarkeit von Proben ermöglichen

b: Rolle der Sequenziertiefe und Genlänge

Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.

Aufgabe 2: RPKM und TPM

Gen & Genlänge (L) Counts (c) Replikat 1 Counts (c) Replikat 2
A (7 kb) 5 16
B (12 kb) 10 36
C (0,5 kb) 2 8
D (25 kb) 1 0

a: Normalisierung mit RPKM

  • RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'
  • Für die Normalisierung wird die Formel [math]\displaystyle{ RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} * 10^6 }[/math] verwendet.

[math]\displaystyle{ \frac{ c_\text{i}}{L_\text{i}} }[/math] → Normalisierung der Genlänge
[math]\displaystyle{ L_\text{i} \cdot N }[/math] → Normalisierung der Sequenziertiefe Beispiel Gen A, Replikat 1:
[math]\displaystyle{ RPKM (A1) = \frac{ 5}{7 kb \cdot 18} * 10^6 = 3,97 * 10^4 }[/math]

Gen RPKM Replikat 1 RPKM Replikat 2
A 3,97 * 10^4 3,81 * 10^4
B 4,63 * 10^4 5 * 10^4
C 2,222 * 10^5 2,667 * 10^5
D 2,2 * 10^3 0
  • Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird.
  • Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können. Die Summe aller RPKMs ergibt nicht 100 % und kann somit keine Anteile am Ganzen widerspiegeln.

b: Normalisierung mit TPM

  • TPM steht für 'Transcripts per Million.
  • Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
  • Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt.
  • Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.
  • TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben 1 Million.
  • Für die Normalisierung wird die Formel [math]\displaystyle{ TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 }[/math] verwendet.

Parameter:
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i'
Li = Länge des Transkripts/Gens 'i' in bp
N = Gesamtanzahl an ausrichtbaren reads in Millionen

Beispiel Gen A, Replikat 1:
[math]\displaystyle{ TPM (A1) = \frac{ 5}{7000} \cdot \dfrac {1}{ \dfrac {5}{7000} + \dfrac {10}{12000} + \dfrac {2}{500} + \dfrac {1}{25000}} \cdot 10^6 = 127834 }[/math]

Gen TPM Replikat 1 TPM Replikat 2
A 127834 107383
B 149139 140940
C 715868 751678
D 7159 0

c: Anwendungsbereich

RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb einer Probe.

Aufgabe 3: Normalisierung zwischen Proben

a: Normalisierungsmethode

Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.

b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?

  • Um das relative RNA-Produktionsniveau aus RNASeq-Daten abzuschätzen
  • Es können heterologe Geneigenschaften zwischen 2 Proben auftauchen und eine identische Genexpression, fälschlicherweise, als unterschiedlich erkannt werden
  • Beispiel: Expression zwischen gesunden und kranken Patienten soll auf bestimmte Marker untersucht werden

c. Normalisierung mit TMM

1. Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt.

Formel Parameter
[math]\displaystyle{ W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} }[/math] Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k'

Nk = Gesamtanzahl an reads für Probe 'k'
k' = 2. Probe (Referenz-Bedingung)

2. Der Mittelwert aller Expressionsverhältnisse wird berechnet.

Formel Parameter
[math]\displaystyle{ M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} }[/math] Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k'

Nk = Gesamtanzahl an reads für Probe 'k'
k' = 2. Probe (Referenz-Bedingung)

3. Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte.

[math]\displaystyle{ TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} }[/math]


Formel Parameter
[math]\displaystyle{ log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} }[/math] [math]\displaystyle{ M_\text{gk}^\text{k`} = }[/math] Mittelwerte aller Expressionsverhältnisse

[math]\displaystyle{ W_\text{gk}^\text{k`} = }[/math] Gewichtungsfaktor der Expressionsverhältnisse
G = Menge aller Gene

Bedingungen für dieses Verfahren:

  • Ygk , Ygk' > 0
  • Die oberen und unteren 30 % der [math]\displaystyle{ M_\text{gk}^\text{k`} }[/math] Werte werden nicht berücksichtigt
  • Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt