8.Galaxy

From Bioinformatik Wiki
Revision as of 17:41, 4 October 2020 by Pge (talk | contribs)

Mithilfe der vorliegenden Sequenzdatensätze soll die differentielle Genexpression zweier Bedingungen eines Experiments untersucht werden. Dafür müssen diese bioinformatisch bearbeitet und anschließend die differentiell exprimierten Gene bestimmt werden.

1. ENA

Informiere dich auf der Website des European Nucleotide Archive (ENA) über die Studie PRJEB22670.

a: Welche Art der Sequenzierung wurde bei der Studie durchgeführt? Welcher Zelltyp wurde analysiert?

Single cell RNA-Sequenzierung von LPS und Palmitat-stimulierten THP1 Makrophagen.


b: Welches Referenzgenom würdest du für ein späteres Alignment verwenden und wieso?

Ein Humangenom, da menschliche Zellen.


c: Es wurde eine paired-end Sequenzierung durchgeführt. Was ist der Unterschied zur single-end Sequenzierung?

Im Gegensatz zu der single-end Sequenzierung wird die paired-end Sequenzierung von beiden Seiten synthetisiert. Dadurch kann die Länge der Sequenz bestimmt werden. Dafür wird zunächst der paired end string von einem Ende sequenziert, um dann in einem zweiten Schritt nochmal reverse (vom anderen Ende aus) sequenziert zu werden (Aber ein und derselbe string). Bei single-end Sequenzierung würde also nur der erste Schritt stattfinden.


d: Welche Bedingungen wurden in der Studie untersucht?

THP1 Makrophagen wurden entweder mit freien Fettsäuren stimuliert, wie es für Fettgewebe physiologisch ist, oder mit LPS (also Bestandteil gramnegativer Bakterienzellwände der klassische Positivtest für humane Immunrekationen).


e: Was ist die größte Herausforderung bei solchen Daten?

Durch die große Datenmenge, die prozessiert werden muss, dauert es relativ lange.


2. Qualitätskontrollen

a: Welche Probleme gibt es nach Qualitätskontrollen mit FastQC?

Bei großen Datenmengen kann vor allem am Ende der Sequenz eine relevante Fehlerrate auftreten.


b: Wie können diese Probleme behoben werden?

Mittels Trimmomatic: Ein Tool, welches Teile der Sequenz mit niedriger Qaulität herauschneidet


c: Wie würde Trimmomatic die Dateien modifizieren? Begründe kurz.

Es analysiert jeweils 4 Basen: Wenn ihre durschnittliche Qualiät in ASCII nicht dem eingegebenen Minimum entspricht, werden sie entfernt.


d: Wie hat sich die Anzahl der reads der einzelnen Dateien nach Trimmomatic verändert?

Die Anzahl an reads hat sich durch das Tool verringert:

Vorher: 8324027
Nachher: 6983074


e: Wie hat sich die 'per base sequence quality' verändert?

Die Qualität hat sich verbessert. (Jedoch sollte man auch nicht zuviel herausschneiden)


3. Alignment an das Referenzgenom

a: Wie heißt der Algorithmus, der zum Alignment von Sequenzen an ein Referenzgenom verwendet wird? Welche Programme könnten verwendet werden und welches wird tatsächlich verwendet?

  • Burrows Wheeler
  • Es können Bowtie (nicht für alternatives Splicen), STAR, HiSat und TopHat verwendet werden
  • HiSat2, da es alternatives Splicen berücksichtig.


b: In welchem Dateiformat wird der Output gespeichert? Welches andere Format wäre noch möglich?