5.Transkriptom RNA Seq 2

From Bioinformatik Wiki


Aufgabe 1: mRNA und RNA-Sequenzierung allgemein

a: Was versteht man unter mRNA?

Messenger-RNA, auch mRNA, ist ein einzelsträngiges Transkript einer genomischen Sequenz. Sie entsteht während der Transkription durch differentielle Genexpression (Transcriptomics) Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist, dass die mRNA Ribose als Zucker besitzt und nicht Desoxyribose (wie die DNA). Außerdem wird statt Thymin Uracil verwendet. Ihr Zweck ist es die Information für den Aufbau eines Proteins zu speichern und zu transportieren.


b: Wie könnte man vorgehen, um mRNA anzureichern?

Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:

Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut. Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und somit die Konzentration an mRNA erhöht.

Grundsätzlich lässt sich sagen:

  • Abbau von rRNA bei Prokaryoten, da diese 90% der RNA einer Zelle ausmacht
  • Anreicherung über Poly (A) -Schwanz bei Eukaryoten

c: Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?

Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die Lichtemissionen über Zeit bestimmt werden.

d: Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet?

Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und der read wird als Sequenz in der BWT gesucht. (siehe Hausaufgabe 4 Aufgabe 1d)

In der Praxis können hier auch Tools wie TopHat genutzt werden.


e: Was versteht man unter SAM- und BAM- Format? Was ist der prinzipielle Unterschied?

Enthält Information über die Sequenz-reads nach dem Alignment an ein Referenzgenom. SAM ist ein texbasiertes und BAM ein binäres Dateiformat. (binär = Computersprache --> 1010001101010101000101)

SAM = Sequence Alignment Map

BAM = Binary Alignment Map

Aufgabe 2: RNA-Sequenzierung

a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.

Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt, in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe NGS sequenziert.

1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse, alkalische Lyse, Sonifikation und andere verwenden

2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese basieren auf unterschiedlichen Methoden wie magnetic beads, Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit Ethanol

3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet

4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die Stänge voneinander unterscheiden kann. Anschließend werden die 3‘ Enden adenyliert um Ligation zu vermeiden.

5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert

6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert. Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA amplifiziert wird.

7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung besser und schneller vonstatten geht.

8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche Sequenzabschnittte schnell sequenzieren.

9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen.

10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.

b. Was versteht man unter der Sequenziertiefe?

Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms.

c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe bei der Daten-Interpretation?

Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an und ist, da n größer ist, statistischer aussagekräftiger.

Aufgabe 3: Sequenzierung mit FASTQ-Format

a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.

   i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso. 

Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein. Header, Sequence, Descriptor, Quality und 20/4=5


   ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach

exprimierten Gens zu quantifizieren?

Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads haben

b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen (Anzahl an Molekülen) vorhanden: Transkript A: 5000 Transkript B: 1000 Transkript C: 10 Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen für A, B und C aus.

Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden.

Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen Link.