=Normalisierungen=
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können.
==RPKM==
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. 
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

'''Beispiel:'''

[[File:Beispiel Probe.png|Beispiel Probe]] 
* <math> RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} </math> 

* <math> RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} </math> 

* <math> RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} </math> 

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

==TPM==
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. 

{| class="wikitable"
|-
! Formel !! Parameter
|-
|<math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|} 
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'. 
'''Beispiel:''' 
[[File:Beispiel Probe.png|Beispiel Probe]] 
*<math> TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 </math> 

*<math> TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 </math> 

*<math> TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 </math> 
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.

==TMM==
TMM steht für 'Trimmed mean of M-values normalization method'. 

'''Probleme von RPKM und TPM:''' 
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. 
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden. 
'''Lösung:''' 
→ TMM als Normalisierungsmethode zwischen Proben 
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. 
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden. 
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2. Mittelwert aller Expressionsverhältnisse''' wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

'''Beispielrechnung:'''
Gen Zustand 1[bp] Zustand 2[bp]
A 200 600
B 600 0
C 800 960
D 400 480

*Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen
Summe 2000 1680

Folgende Dinge gelten nun:
*TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.

* Zuerst normalisiert man die Counts innerhalb der Probe
Y a/N
<math>
200/2000=0,1
</math>

6 Normalisierungen

2020-10-05T15:47:12Z

Pge: /* TPM */

6 Normalisierungen

2020-10-05T15:46:43Z

Pge: /* TPM */

7.Hypothesentests

2020-10-05T10:02:11Z

Pge: /* Aufgabe 2 */

== Aufgabe 1 ==

'''a''': Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?

Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen, ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.

Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.

Mittelwert: <math>\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}</math>

Standardabweichung: <math>\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} </math>

Freiheitsgrade: df = n-1

In den Formeln ist <math>\bar{x} </math> der Mittelwert, <math> x_1 </math> etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.

Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt:
:<math>
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,</math>

Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden.

'''b''': Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?

Students t-Test sollte nur angewendet werden, wenn die Grundgesamtheiten die gleiche Varianz
aufweisen. Wenn dies der Fall ist, sollte der Welch-Test verwendet werden.

Student´s t- test - Gleiche Varianz der Stichproben
Welch´s t- test - Ungleiche Varianz der Stichproben

== Aufgabe 2 ==

'''a''': Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zwischen zwei
Bedingungen für viele Gene testet?

Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 (nicht signifikant bzw falsch) feststellt. Dies ist dem Zufall geschuldet, da manchmal der p-Wert einfach dadurch unter das Signifikanzniveau fallen kann. Um dies zu vermeiden, kann man das Signifikanzniveau adjustieren.

'''b''': Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der
Bonferroni-Korrektur?

Bei der Bonferroni Korrektur wird der p-Wert aller Merkmale mit der Anzahl der Merkmale multipliziert, somit normalisiert man den p-Wert auf die Anzahl der Merkmale. Dies ist eine einfach Methode allerdings kann sie zu vielen Fehlern 2. Art führen (falsch negative).
statistisch sehr sicher (Goldstandard), aber sehr streng

Bei der Benjamini-Hochberg Prozedur wird die False Discovery Rate (FDR oder Q) zusätzlich einbezogen. Anschließend werden die Werte sortiert und der kritische Wert wird bestimmt. Alle Werte die einen p-Wert kleiner als den kritischen Wert besitzen werden als signifikant betrachtet. Je kleiner die FDR ist, desto mehr nähern sich die Ergebnisse denen der Bonferroni Korrektur an.
valider statistischer Test, weniger false negative

'''c''': Wie funktioniert die Bonferroni-Korrektur?

Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:

<math> p_\text{i*}=p_\text{i}*n</math>

wobei <math> p_\text{i*}</math> der korrigierte Wert ist,

<math>p_\text{i}</math>der p-Wert für Merkmal i und n die Anzahl der Merkmale.

Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant.

'''d''': Wie funktioniert die Benjamini-Hochberg Prozedur?

Die Prozedur folgt den folgenden Schritten:

- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend.

- Gib jedem p-Wert einen Rang zu (i)

- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel:

BH = <math>\frac{i}{n}</math> * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate

- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert.

- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind.

'''e''': Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die
Unterschiede!

Bonferroni-Methode

{| class="wikitable sortable"
! Metabolit !! P !! P*
|-
! C-mannosyltryptophan
| 1.10E-03 || 0.0297
|-
! pseudouridine
| 3.70E-03 || 0.0999
|-
! O-sulfo-L-tyrosine
| 1.40E-02 || 0.378
|-
! margarate (17:0)
| 2.80E-01 || 7.56
|-
! erythronate*
| 2.80E-02 || 0.756
|-
! N-acetylalanine
| 4.00E-02 || 1.08
|-
! 4-androsten-3beta,17beta-diol disulfate 2*
| 5.30E-03 || 0.1431
|-
! 10-nonadecenoate (19:1n9)
| 8.90E-01 || 24.03
|-
! 4-acetamidobutanoate
| 5.30E-02 || 1.431
|-
! N-acetylthreonine
| 2.70E-01 || 7.29
|-
! eicosenoate (20:1n9 or 11)
| 4.80E-01 || 12.96
|-
! 15-methylpalmitate (isobar with 2- methylpalmitate)
| 4.70E-01 || 12.69
|-
! N1-methyladenosine
| 5.50E-02 || 1.485
|-
! X - 12092
| 1.90E-01 || 5.13
|-
! X - 12216
| 1.50E-02 || 0.405
|-
! N-acetylornithine
| 4.50E-03 || 0.1215
|-
! N-acetylornithine
| 1.30E-01 || 3.51
|-
! dihomo-linoleate (20:2n6)
| 8.60E-01 || 23.22
|-
! 1-docosahexaenoylglycerophosphocholine*
| 3.90E-02 || 1.053
|-
! kynurenine
| 4.60E-02 || 1.242
|-
! 5alpha-pregnan-3beta,20alpha-diol disulfate
| 1.30E-02 || 0.351
|-
! erythritol
| 1.20E-01 || 3.24
|-
! homocitrulline
| 2.50E-01 || 6.75
|-
! bradykinin, des-arg(9)
| 3.20E-01 || 8.64
|-
! X - 04494
| 9.40E-02 || 2.538
|-
! linoleate (18:2n6)
| 8.20E-01 || 22.14
|-
! mannose
| 2.00E-01 || 5.4
|}

mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der einzig signifikante Wert ist C-mannoysltryptophan.

Benjamini-Hochberg Prozedur:

{| class="wikitable sortable"
! Metabolit !! P !! Rang !! BHKW !! Differenz
|-
! C-mannosyltryptophan
| 1.10E-03 || 1 || 0.0019 || -0.0008
|-
! pseudouridine
| 3.70E-03 || 2 || 0.0037 || 0
|-
! N-acetylornithine
| 4.50E-03 || 3 || 0.0056 || -0.0011
|-
! 4-androsten-3beta,17beta-diol disulfate 2*
| 5.30E-03 || 4 || 0.0074 || -0.0021
|-
! 5alpha-pregnan-3beta,20alpha-diol disulfate
| 1.30E-02 || 5 || 0.0093 || 0.0037
|-
! O-sulfo-L-tyrosine
| 1.40E-02 || 6 || 0.0111 || 0.0029
|-
! X - 12216
| 1.50E-02 || 7 || 0.013 || 0.002
|-
! erythronate*
| 2.80E-02 || 8 || 0.0148 || 0.0132
|-
! 1-docosahexaenoylglycerophosphocholine*
| 3.90E-02 || 9 || 0.0167 || 0.0223
|-
! N-acetylalanine
| 4.00E-02 || 10 || 0.0185 || 0.0215
|-
! kynurenine
| 4.60E-02 || 11 || 0.0204 || 0.0256
|-
! 4-acetamidobutanoate
| 5.30E-02 || 12 || 0.0222 || 0.0308
|-
! N1-methyladenosine
| 5.50E-02 || 13 || 0.0241 || 0.0309
|-
! X - 04494
| 9.40E-02 || 14 || 0.0259 || 0.0681
|-
! erythritol
| 1.20E-01 || 15 || 0.0278 || 0.0922
|-
! N-acetylornithine
| 1.30E-01 || 16 || 0.0296 || 0.1004
|-
! X - 12092
| 1.90E-01 || 17 || 0.0315 || 0.1585
|-
! mannose
| 2.00E-01 || 18 || 0.0333 || 0.1667
|-
! homocitrulline
| 2.50E-01 || 19 || 0.0352 || 0.2148
|-
! N-acetylthreonine
| 2.70E-01 || 20 || 0.037 || 0.233
|-
! margarate (17:0)
| 2.80E-01 || 21 || 0.0389 || 0.2411
|-
! bradykinin, des-arg(9)
| 3.20E-01 || 22 || 0.0407 || 0.2793
|-
! 15-methylpalmitate (isobar with 2- methylpalmitate)
| 4.70E-01 || 23 || 0.0426 || 0.4274
|-
! eicosenoate (20:1n9 or 11)
| 4.80E-01 || 24 || 0.0444 || 0.4356
|-
! linoleate (18:2n6)
| 8.20E-01 || 25 || 0.0463 || 0.7737
|-
! dihomo-linoleate (20:2n6)
| 8.60E-01 || 26 || 0.0481 || 0.8119
|-
! 10-nonadecenoate (19:1n9)
| 8.90E-01 || 27 || 0.05 || 0.84
|}

Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.

6.Normalisierungen

2020-10-05T09:58:10Z

Pge: /* b: Rolle der Sequenziertiefe und Genlänge */

==Aufgabe 1: Grundlagen==
===a: Warum ist es notwendig RNASeq Daten zu normalisieren?===
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. 

===b: Rolle der Sequenziertiefe und Genlänge===
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.

==Aufgabe 2: RPKM und TPM==
{| class="wikitable center"
|-
! Gen & Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2
|-
| A (7 kb) || 5 || 16
|-
| B (12 kb) || 10 || 36
|-
| C (0,5 kb) || 2 || 8
|-
| D (25 kb) || 1 || 0
|}
===a: Normalisierung mit RPKM===
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'
* Für die Normalisierung wird die Formel <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
'''In dieser Aufgabe:''' 
c = siehe Tabelle 
L = siehe Tabelle 
N (Replikat 1) = 18 | N (Replikat 2) = 60 
'''Beispiel Gen A, Replikat 1:''' 
<math> RPKM (A1) = \frac{ 5}{7 kb \cdot 18} = 0,0397 </math>
{| class="wikitable center"
|-
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
|-
| A || 0,0397 || 0,0381
|-
| B || 0,0463 || 0,05
|-
| C || 0,2222 || 0,2667
|-
| D || 0,0022 || 0
|}
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird.
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.

===b: Normalisierung mit TPM===
* TPM steht für 'Transcripts per Million.
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Im Gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt. 
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben die gleichen Summe. Dies ist bei RPKM nicht immer der Fall, weswegen die Verwendung von TPM bei entsprechender Fragestellung von Vorteil sein kann.
* Für die Normalisierung wird die Formel <math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen 
'''Beispiel Gen A, Replikat 1:''' 
<math> TPM (A1) = \frac{ 5}{7000} \cdot \dfrac {1}{ \dfrac {5}{7000} + \dfrac {10}{12000} + \dfrac {2}{500} + \dfrac {1}{25000}} \cdot 10^6 = 127834 </math> 
{| class="wikitable center"
|-
! Gen !! TPM Replikat 1 !! TPM Replikat 2
|-
| A || 127834 || 107383
|-
| B || 149139 || 140940
|-
| C || 715868 || 751678
|-
| D || 7159 || 0
|}

===c: Anwendungsbereich===
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb eines Experiments.

==Aufgabe 3: Normalisierung zwischen Proben==
==a: Normalisierungsmethode==
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen (Bspw, ob es in Krebszellen stärker oder schwächer exprimiert wird als in gesunden Zellen)

==c. Normalisierung mit TMM==
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

6.Normalisierungen

2020-10-05T01:00:23Z

Pge: /* b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet? */

==Aufgabe 1: Grundlagen==
===a: Warum ist es notwendig RNASeq Daten zu normalisieren?===
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. 

===b: Rolle der Sequenziertiefe und Genlänge===
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist, würde man da fälschlicherweise annehmen, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe, dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung beachtet werden. Dies ist durch Normalisierungen möglich.

==Aufgabe 2: RPKM und TPM==
{| class="wikitable center"
|-
! Gen & Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2
|-
| A (7 kb) || 5 || 16
|-
| B (12 kb) || 10 || 36
|-
| C (0,5 kb) || 2 || 8
|-
| D (25 kb) || 1 || 0
|}
===a: Normalisierung mit RPKM===
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'
* Für die Normalisierung wird die Formel <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
'''In dieser Aufgabe:''' 
c = siehe Tabelle 
L = siehe Tabelle 
N (Replikat 1) = 18 | N (Replikat 2) = 60 
'''Beispiel Gen A, Replikat 1:''' 
<math> RPKM (A1) = \frac{ 5}{7 kb \cdot 18} = 0,0397 </math>
{| class="wikitable center"
|-
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
|-
| A || 0,0397 || 0,0381
|-
| B || 0,0463 || 0,05
|-
| C || 0,2222 || 0,2667
|-
| D || 0,0022 || 0
|}
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird.
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.

===b: Normalisierung mit TPM===
* TPM steht für 'Transcripts per Million.
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Im Gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt. 
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben die gleichen Summe. Dies ist bei RPKM nicht immer der Fall, weswegen die Verwendung von TPM bei entsprechender Fragestellung von Vorteil sein kann.
* Für die Normalisierung wird die Formel <math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen 
'''Beispiel Gen A, Replikat 1:''' 
<math> TPM (A1) = \frac{ 5}{7000} \cdot \dfrac {1}{ \dfrac {5}{7000} + \dfrac {10}{12000} + \dfrac {2}{500} + \dfrac {1}{25000}} \cdot 10^6 = 127834 </math> 
{| class="wikitable center"
|-
! Gen !! TPM Replikat 1 !! TPM Replikat 2
|-
| A || 127834 || 107383
|-
| B || 149139 || 140940
|-
| C || 715868 || 751678
|-
| D || 7159 || 0
|}

===c: Anwendungsbereich===
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb eines Experiments.

==Aufgabe 3: Normalisierung zwischen Proben==
==a: Normalisierungsmethode==
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen (Bspw, ob es in Krebszellen stärker oder schwächer exprimiert wird als in gesunden Zellen)

==c. Normalisierung mit TMM==
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

6 Normalisierungen

2020-10-05T00:52:52Z

Pge: /* RPKM */

2020-10-05T00:12:55Z

Pge: /* P-Value */

11 BLAST II

2020-10-05T00:12:15Z

Pge: /* P-Value */

11 BLAST II

2020-10-05T00:10:59Z

Pge: /* P-Value */

11 BLAST II

2020-10-05T00:08:22Z

Pge: /* P-Value */

11 BLAST II

2020-10-05T00:07:29Z

Pge: /* P-Value */