5.Transkriptom RNA Seq 2: Difference between revisions

From Bioinformatik Wiki
No edit summary
No edit summary
Line 33: Line 33:
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])
== Aufgabe 2: RNA-Sequenzierung  ==
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.
Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt,
in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe
NGS sequenziert.
1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je
nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der
Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse,
alkalische Lyse, Sonifikation und andere verwenden
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese
basieren auf unterschiedlichen Methoden wie magnetic beads,
Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit
Ethanol
3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet
4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase
hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der
cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim
zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die
Stänge voneinander unterscheiden kann. Anschließend werden die 3‘
Enden adenyliert um Ligation zu vermeiden.
5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.
Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA
amplifiziert wird.
7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung
besser und schneller vonstatten geht.
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche
Sequenzabschnittte schnell sequenzieren.
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen.
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.
b. Was versteht man unter der Sequenziertiefe?
Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms.
c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe
bei der Daten-Interpretation?
Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer
weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an
und ist, da n größer ist, statistischer aussagekräftiger.
Aufgabe 3: Sequenzierung mit FASTQ-Format
a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.
    a) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso.
Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein.
Header, Sequence, Descriptor, Quality und 20/4=5
    b) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach
exprimierten Gens zu quantifizieren?
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads
haben
b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen
(Anzahl an Molekülen) vorhanden:
Transkript A: 5000
Transkript B: 1000
Transkript C: 10
Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man
mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen
für A, B und C aus.
Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings
kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige
Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat
man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige
Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden.
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].

Revision as of 21:03, 1 July 2019

Der Übungszettel war am 16.05.2019 abzugeben.

Aufgabe 1: mRNA und RNA-Sequenzierung allgemein

a. Was versteht man unter mRNA?

Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist, dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose, wie die DNA.

b. Wie könnte man vorgehen, um mRNA anzureichern?

Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:

Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut. Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und somit die Konzentration an mRNA erhöht.

c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?

Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die Lichtemissionen über Zeit bestimmt werden.

d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet?

Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und der read wird als Sequenz in der BWT gesucht (siehe Hausaufgabe 4 Aufgabe 1d)

Aufgabe 2: RNA-Sequenzierung

a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.

Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt, in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe NGS sequenziert.

1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse, alkalische Lyse, Sonifikation und andere verwenden

2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese basieren auf unterschiedlichen Methoden wie magnetic beads, Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit Ethanol

3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet

4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die Stänge voneinander unterscheiden kann. Anschließend werden die 3‘ Enden adenyliert um Ligation zu vermeiden.

5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert

6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert. Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA amplifiziert wird.

7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung besser und schneller vonstatten geht.

8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche Sequenzabschnittte schnell sequenzieren.

9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen.

10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.

b. Was versteht man unter der Sequenziertiefe?

Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms.

c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe bei der Daten-Interpretation?

Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer

weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an und ist, da n größer ist, statistischer aussagekräftiger.

Aufgabe 3: Sequenzierung mit FASTQ-Format

a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.

   a) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso. 

Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein. Header, Sequence, Descriptor, Quality und 20/4=5


   b) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach

exprimierten Gens zu quantifizieren?

Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads haben

b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen (Anzahl an Molekülen) vorhanden: Transkript A: 5000 Transkript B: 1000 Transkript C: 10 Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen für A, B und C aus.

Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden.

Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen Link.