2 Transkriptom RNA Seq 1: Difference between revisions

From Bioinformatik Wiki
(Created page with "Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 2 am 18.04.2019 behandelt wurden. == Biologische Fragestellung == Da NAT8L in euren Prostatakarzinomzellen...")
 
No edit summary
Line 30: Line 30:


== FASTQ ==
== FASTQ ==
Beispiel:
Eine FASTQ-Datei ist folgendermaßen aufgebaut: </br>


@identifier <-- Sequenz ID </br>
@identifier Sequenz ID </br>
GATCTT <-- Sequenz </br>
GATCTT Sequenz </br>
+ irgendeine Beschreibung <-- optionale Beschreibung </br>
+ irgendeine Beschreibung optionale Beschreibung </br>
!'CC'*+*!? <-- Qualität für jedes Level (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle] </br>
!'CC'*+*!? Qualität für jedes Level (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle] </br>


=== Problem ===
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!


== Sequenzabdeckung ==
== Sequenzabdeckung ==
Line 44: Line 46:
c: Coverage (Abdeckung) </br>
c: Coverage (Abdeckung) </br>
</br>
</br>
c=/frac{N*L}{G}
«insert Formel hier»
 
== Lander-Waterman-Modell ==
Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.</br>
 
<big>P<sub>[nicht abgedecktes Bp]</sub> = e<sup>-c</sup></br></big>
 
Beispiele:</br>
c=10 → 1 Gap in 22000 Bp</br>
c=22 → 1 Gap in 3,6*10<sup>9</sup> Bp</br>
 
<big>(c meist bei 30)</big>

Revision as of 15:28, 1 May 2019

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 2 am 18.04.2019 behandelt wurden.

Biologische Fragestellung

Da NAT8L in euren Prostatakarzinomzellen erhöht exprimiert ist, habt ihr euch entschlossen die Genexpression durch RNAi (RNA Interferenz) zu silencen.

Experiment

  • insert pic here*

Sanger Methode

Als Wiederholung:

400px][https://de.wikipedia.org/wiki/DNA-Sequenzierung#Didesoxymethode_nach_Sanger


Next Generation Sequencing (NGS)

Illumina Sequencing (2nd Generation Sequencing)

Ergebnis der Illumina Sequenzierung:

  • Länge der reads 50-600bp
  • Fehlerrate ca. 0,1%
  • humanes Genom kann 30x am Tag sequenziert werden
  • Daten werden in FASTQ Format geliefert


FASTQ

Eine FASTQ-Datei ist folgendermaßen aufgebaut:

@identifier ← Sequenz ID
GATCTT ← Sequenz
+ irgendeine Beschreibung ← optionale Beschreibung
!'CC'*+*!? ← Qualität für jedes Level (Zahlenwert repräsentiert durch ASCII Tabelle

Problem

Viele kurze reads, die in einen Zusammenhang gebracht werden müssen!

Sequenzabdeckung

G: Länge der Genomsequenz
N: Anzahl der reads
L: durchschnittliche Länge der reads
c: Coverage (Abdeckung)

«insert Formel hier»

Lander-Waterman-Modell

Mathematisches Modell zur Errechnung, durch Sequenzierung, nicht abgedeckter Basenpaare.

P[nicht abgedecktes Bp] = e-c

Beispiele:
c=10 → 1 Gap in 22000 Bp
c=22 → 1 Gap in 3,6*109 Bp

(c meist bei 30)