8.Galaxy
Mithilfe der vorliegenden Sequenzdatensätze soll die differentielle Genexpression zweier Bedingungen eines Experiments untersucht werden. Dafür müssen diese bioinformatisch bearbeitet und anschließend die differentiell exprimierten Gene bestimmt werden.
ENA
Informiere dich auf der Website des European Nucleotide Archive (ENA) über die Studie PRJEB22670.
a: Welche Art der Sequenzierung wurde bei der Studie durchgeführt? Welcher Zelltyp wurde analysiert?
Single cell RNA-Sequenzierung von LPS und Palmitat-stimulierten THP1 Makrophagen.
b: Welches Referenzgenom würdest du für ein späteres Alignment verwenden und wieso?
Ein Humangenom, da menschliche Zellen.
c: Es wurde eine paired-end Sequenzierung durchgeführt. Was ist der Unterschied zur single-end Sequenzierung?
Im Gegensatz zu der single-end Sequenzierung wird die paired-end Sequenzierung von beiden Seiten synthetisiert. Dadurch kann die Länge der Sequenz bestimmt werden. Dafür wird zunächst der paired end string von einem Ende sequenziert, um dann in einem zweiten Schritt nochmal reverse (vom anderen Ende aus) sequenziert zu werden (Aber ein und derselbe string). Bei single-end Sequenzierung würde also nur der erste Schritt stattfinden.
d: Welche Bedingungen wurden in der Studie untersucht?
THP1 Makrophagen wurden entweder mit freien Fettsäuren stimuliert, wie es für Fettgewebe physiologisch ist, oder mit LPS (also Bestandteil gramnegativer Bakterienzellwände der klassische Positivtest für humane Immunrekationen).
e: Was ist die größte Herausforderung bei solchen Daten?
Durch die große Datenmenge, die prozessiert werden muss, dauert es relativ lange.
Qualitätskontrollen
a: Welche Probleme gibt es nach Qualitätskontrollen mit FastQC?
Bei großen Datenmengen kann vor allem am Ende der Sequenz eine relevante Fehlerrate auftreten.
b: Wie können diese Probleme behoben werden?
Mittels Trimmomatic: Ein Tool, welches Teile der Sequenz mit niedriger Qaulität herauschneidet
c: Wie würde Trimmomatic die Dateien modifizieren? Begründe kurz.
Es analysiert jeweils 4 Basen: Wenn ihre durschnittliche Qualiät in ASCII nicht dem eingegebenen Minimum entspricht, werden sie entfernt.
d: Wie hat sich die Anzahl der reads der einzelnen Dateien nach Trimmomatic verändert?
Die Anzahl an reads hat sich durch das Tool verringert:
Vorher: 8324027 Nachher: 6983074
e: Wie hat sich die 'per base sequence quality' verändert?
Die Qualität hat sich verbessert. (Jedoch sollte man auch nicht zuviel herausschneiden)
Alignment an das Referenzgenom
a: Wie heißt der Algorithmus, der zum Alignment von Sequenzen an ein Referenzgenom verwendet wird? Welche Programme könnten verwendet werden und welches wird tatsächlich verwendet?
- Burrows Wheeler
- Es können Bowtie (nicht für alternatives Splicen), STAR, HiSat und TopHat verwendet werden
- HiSat2, da es alternatives Splicen berücksichtig.
b: In welchem Dateiformat wird der Output gespeichert? Welches andere Format wäre noch möglich? Nenne Unterschiede zwischen den beiden Formaten.
- Es wird in BAM gespeichert
- SAM wäre ebenfalls möglich
- BAM ist SAM in binär; verbraucht also weniger Speicherplatz
Bestimmung der differentiellen Genexpression
a: Sieh dir die count-Tabelle an. Können mit dieser Tabelle biologische Schlüsse gezogen werden? Warum?
Spalten: Behandlungen (UT & LPS) Zeilen: untersuchten Gene
- Es kann abgelesen werden, inwiefer die Behandlung die Genexpression beeinflusst
- Schlüsse können draus jedoch noch nicht gezogen werden, da unklar ist, welche Zahl zu welche Gen gehört. Dazu wird eine GeneID mittels 'annotate MyID' erstellt
b: Wo würdest du nach hilfreichen Informationen suchen?
- Mittels annotate MyID können die Nummern den entsprechenden Genen zugeteilt werden
- Weitere Informationen bei: ENA, Array Express, NCBI, Uniprot
c: Welche Gene sind in der finalen Tabelle hoch- bzw. runterreguliert? Was könnte das biologisch bedeuten? (Beispiel)