2 Transkriptom RNA Seq 1: Difference between revisions

From Bioinformatik Wiki
Line 29: Line 29:


== FASTQ ==
== FASTQ ==
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.
Eine FASTQ-Datei ist folgendermaßen aufgebaut: </br>
Eine FASTQ-Datei ist folgendermaßen aufgebaut: </br>


Line 40: Line 41:


=== Problem ===
=== Problem ===
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.


== Sequenzabdeckung ==
== Sequenzabdeckung ==

Revision as of 21:25, 28 January 2021

Biologische Fragestellung

Da NAT8L in euren Prostatakarzinomzellen erhöht exprimiert ist, habt ihr euch entschlossen die Genexpression durch RNAi (RNA Interferenz) zu silencen.

Experiment

Vorlesung 2 Experiment Skizze.jpg


  • Aus zwei Tumorzellkulturen wird die mRNA extrahiert
  • mit Hilfe der reversen Transkriptase wird cDNA transkribiert
  • cDNA wird sequenziert
  • Sequenzunterschiede können analysiert werden

Sanger Methode

Als Wiederholung:

400px][https://de.wikipedia.org/wiki/DNA-Sequenzierung#Didesoxymethode_nach_Sanger


Next Generation Sequencing (NGS)

Illumina Sequencing (2nd Generation Sequencing)

File:Cluster Generation.png
1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der "flow cell". 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.


Ergebnis der Illumina Sequenzierung:

  • Länge der reads 50-600bp
  • Fehlerrate ca. 0,1%
  • humanes Genom kann 30x am Tag sequenziert werden
  • Daten werden in FASTQ Format geliefert

FASTQ

Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient. Eine FASTQ-Datei ist folgendermaßen aufgebaut:

@ Identifier  # Sequenz identifier
GATCTT        # Sequenz
+             # optionale Beschreibung
!'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch ASCII Tabelle)

Problem

Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.

Sequenzabdeckung

G: Länge der Genomsequenz
N: Anzahl der reads
L: durchschnittliche Länge der reads
C: Coverage (Abdeckung)

[math]\displaystyle{ C= \frac{N*L}{G} }[/math]

Lander-Waterman-Modell

Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.

P[nicht abgedecktes Bp] = e-c

Beispiele:
C=10 → 1 Gap in 22000 Bp

C=22 → 1 Gap in 3,6*109 Bp

C=30 → So tief, dass quasi alles überdeckt wird

Assemblierung der reads

Aus der RNA-Seq erhaltene Fragmente sequenzierter RNA. Diese werden anschließend dem Referenzgenom (Template) zugeordnet werden.


-A -C -C -T -G -A -C T -A -G -C -T -G -A -T -C -A -A -G -G - - Template
-G -A -T -C -A -A
-A -G -C -T -G -A
-A -C G -A -G -C -T - - Punktmutation
-G -A -_ -C -A -A -G -G - - Deletion