2 Transkriptom RNA Seq 1: Difference between revisions

From Bioinformatik Wiki
Line 38: Line 38:
  !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])
  !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])
</big>
</big>
</br>
 
=== Problem ===
=== Problem ===
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!

Revision as of 21:04, 28 January 2021

Biologische Fragestellung

Da NAT8L in euren Prostatakarzinomzellen erhöht exprimiert ist, habt ihr euch entschlossen die Genexpression durch RNAi (RNA Interferenz) zu silencen.

Experiment

Vorlesung 2 Experiment Skizze.jpg


  • Aus zwei Tumorzellkulturen wird die mRNA extrahiert
  • mit Hilfe der reversen Transkriptase wird cDNA transkribiert
  • cDNA wird sequenziert
  • Sequenzunterschiede können analysiert werden

Sanger Methode

Als Wiederholung:

400px][https://de.wikipedia.org/wiki/DNA-Sequenzierung#Didesoxymethode_nach_Sanger


Next Generation Sequencing (NGS)

Illumina Sequencing (2nd Generation Sequencing)

File:Cluster Generation.png
1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der "flow cell". 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.


Ergebnis der Illumina Sequenzierung:

  • Länge der reads 50-600bp
  • Fehlerrate ca. 0,1%
  • humanes Genom kann 30x am Tag sequenziert werden
  • Daten werden in FASTQ Format geliefert

FASTQ

Eine FASTQ-Datei ist folgendermaßen aufgebaut:

@ Identifier  # Sequenz identifier
GATCTT        # Sequenz
+             # optionale Beschreibung
!'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch ASCII Tabelle)

Problem

Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!

Sequenzabdeckung

G: Länge der Genomsequenz
N: Anzahl der reads
L: durchschnittliche Länge der reads
C: Coverage (Abdeckung)

[math]\displaystyle{ C= \frac{N*L}{G} }[/math]

Lander-Waterman-Modell

Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.

P[nicht abgedecktes Bp] = e-c

Beispiele:
c=10 → 1 Gap in 22000 Bp
c=22 → 1 Gap in 3,6*109 Bp

(c meist bei 30)

Assemblierung der reads

-A -C -C -T -G -A -C T -A -G -C -T -G -A -T -C -A -A -G -G - - Template
-G -A -T -C -A -A
-A -G -C -T -G -A
-A -C G -A -G -C -T - - Punktmutation
-G -A -_ -C -A -A -G -G - - Deletion