2 Transkriptom RNA Seq 1: Difference between revisions
(→FASTQ) |
|||
Line 84: | Line 84: | ||
| || || || || || || || || || || || || -G|| -A|| -_|| -C|| -A|| -A|| -G|| -G|| -||-|| Deletion | | || || || || || || || || || || || || -G|| -A|| -_|| -C|| -A|| -A|| -G|| -G|| -||-|| Deletion | ||
|}</big></br> | |}</big></br> | ||
'''Contiq''': Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken. | |||
'''Scaffold''': Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs. | |||
'''Assembly''': Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden (Zusammensetzung der Sequenz). | |||
'''Alignment''' = optimales „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können |
Revision as of 20:32, 28 January 2021
Biologische Fragestellung
Da NAT8L in euren Prostatakarzinomzellen erhöht exprimiert ist, habt ihr euch entschlossen die Genexpression durch RNAi (RNA Interferenz) zu silencen.
Experiment
- Aus zwei Tumorzellkulturen wird die mRNA extrahiert
- mit Hilfe der reversen Transkriptase wird cDNA transkribiert
- cDNA wird sequenziert
- Sequenzunterschiede können analysiert werden
Sanger Methode
Als Wiederholung:
Next Generation Sequencing (NGS)
Illumina Sequencing (2nd Generation Sequencing)
Ergebnis der Illumina Sequenzierung:
- Länge der reads 50-600bp
- Fehlerrate ca. 0,1%
- humanes Genom kann 30x am Tag sequenziert werden
- Daten werden in FASTQ Format geliefert
FASTQ
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.
Eine FASTQ-Datei ist folgendermaßen aufgebaut:
@ Identifier # Sequenz identifier GATCTT # Sequenz + # optionale Beschreibung !'CC'*+*!? # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch ASCII Tabelle)
Problem
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.
Sequenzabdeckung
G: Länge der Genomsequenz
N: Anzahl der reads
L: durchschnittliche Länge der reads
C: Coverage (Abdeckung)
[math]\displaystyle{ C= \frac{N*L}{G} }[/math]
Lander-Waterman-Modell
Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.
P[nicht abgedecktes Bp] = e-c
Beispiele:
C=10 → 1 Gap in 22000 Bp
C=22 → 1 Gap in 3,6*109 Bp
C=30 → So tief, dass quasi alles überdeckt wird
Assemblierung der reads
Aus der RNA-Seq erhaltene Fragmente sequenzierter RNA. Diese werden anschließend dem Referenzgenom (Template) zugeordnet werden.
-A | -C | -C | -T | -G | -A | -C | T | -A | -G | -C | -T | -G | -A | -T | -C | -A | -A | -G | -G | - | - | Template | |||
-G | -A | -T | -C | -A | -A | ||||||||||||||||||||
-A | -G | -C | -T | -G | -A | ||||||||||||||||||||
-A | -C | G | -A | -G | -C | -T | - | - | Punktmutation | ||||||||||||||||
-G | -A | -_ | -C | -A | -A | -G | -G | - | - | Deletion |
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.
Assembly: Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden (Zusammensetzung der Sequenz).
Alignment = optimales „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können