FASTA-Format

From Bioinformatik Wiki

Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung von Nukleotidsequenzen einer DNA, z.B. nach einer RNASeq.

Aufbau FASTA-Format
Kopfzeile > OpuC | Bacillus subtilis | Probe xy
Kommentar  ; Optionaler Kommentar
Sequenz MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLG KAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYK ALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEE LKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVE QVIAEKEKEFGGKIKIVEFICFEVGEGEVAAQLFDKAVQLLREKGLG
  • Die Kopfzeile ist die Sequenz-ID und beginnt mit einem >, ohne Leerzeile startet der Text. Dabei handelt es sich um eine genaue Beschreibung der Sequenz, um diese von den anderen Sequenzen unterscheiden zu können.
  • Die Kommentarzeilen sind optional, dabei kann es eine, oder mehrere Kommentarzeilen geben, eingeleitet werden diese durch ein ; (Semikolon).
  • Nach den oben genannten Zeilen startet die Sequenz in 5' → 3' Richtung, entweder in Form von Nukleinbasen (AGCT), oder Aminosäuren-Codes. Lücken werden durch - dargestellt.