2 Transkriptom RNA Seq 1: Difference between revisions
No edit summary |
No edit summary |
||
Line 30: | Line 30: | ||
== FASTQ == | == FASTQ == | ||
Eine FASTQ-Datei ist folgendermaßen aufgebaut: </br> | Eine FASTQ-Datei ist folgendermaßen aufgebaut: </br> | ||
<big> | |||
@identifier ← Sequenz ID </br> | @identifier ← Sequenz ID </br> | ||
GATCTT ← Sequenz </br> | GATCTT ← Sequenz </br> | ||
+ irgendeine Beschreibung ← optionale Beschreibung </br> | + irgendeine Beschreibung ← optionale Beschreibung </br> | ||
!'CC'*+*!? ← Qualität für jedes Level (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle] </br> | !'CC'*+*!? ← Qualität für jedes Level (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle] | ||
</big> | |||
</br> | |||
=== Problem === | === Problem === | ||
Line 50: | Line 54: | ||
Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.</br> | Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.</br> | ||
<big>P<sub>[nicht abgedecktes Bp]</sub> = e<sup>-c</sup></ | <big> | ||
P<sub>[nicht abgedecktes Bp]</sub> = e<sup><big>-c</big></sup> | |||
</big> | |||
</br> | |||
Beispiele:</br> | Beispiele:</br> |
Revision as of 17:19, 1 May 2019
Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 2 am 18.04.2019 behandelt wurden.
Biologische Fragestellung
Da NAT8L in euren Prostatakarzinomzellen erhöht exprimiert ist, habt ihr euch entschlossen die Genexpression durch RNAi (RNA Interferenz) zu silencen.
Experiment
- insert pic here*
Sanger Methode
Als Wiederholung:
Next Generation Sequencing (NGS)
Illumina Sequencing (2nd Generation Sequencing)
<<insert Beschreibung here>>
Ergebnis der Illumina Sequenzierung:
- Länge der reads 50-600bp
- Fehlerrate ca. 0,1%
- humanes Genom kann 30x am Tag sequenziert werden
- Daten werden in FASTQ Format geliefert
FASTQ
Eine FASTQ-Datei ist folgendermaßen aufgebaut:
@identifier ← Sequenz ID
GATCTT ← Sequenz
+ irgendeine Beschreibung ← optionale Beschreibung
!'CC'*+*!? ← Qualität für jedes Level (Zahlenwert repräsentiert durch ASCII Tabelle
Problem
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!
Sequenzabdeckung
G: Länge der Genomsequenz
N: Anzahl der reads
L: durchschnittliche Länge der reads
c: Coverage (Abdeckung)
«insert Formel hier»
Lander-Waterman-Modell
Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.
P[nicht abgedecktes Bp] = e-c
Beispiele:
c=10 → 1 Gap in 22000 Bp
c=22 → 1 Gap in 3,6*109 Bp
(c meist bei 30)
Assemblierung der reads
-A | -C | -C | -T | -G | -A | -C | -T | -A | -G | -C | -T | -G | -A | -T | -C | -A | -A | -G | -G | - | - | Template | |||
-G | -A | -T | -C | -A | -A | ||||||||||||||||||||
-A | -G | -C | -T | -G | -A | ||||||||||||||||||||
-A | -C | G | -A | -G | -C | -T | - | - | Punktmutation | ||||||||||||||||
-G | -A | -_ | -C | -A | -A | -G | -G | - | - | Deletion |