1 Datenbanken: Difference between revisions

From Bioinformatik Wiki
 
(13 intermediate revisions by 2 users not shown)
Line 1: Line 1:
Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken.


== Primärdatenbanken ==
* Primärdatenbanken enthalten experimentell ermittelte Daten
* man unterscheidet zwischen zwei Konzepten:
1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB
* Vorteil: schnelle öffentliche Verfügbarkeit der Sequenzen
* Nachteil: fehlende Qualitätsprüfung
2. curated Datenbanken sind Datenbanken in der jeder Eintrag geprüft wird  z.B. PIR
* Vorteil: Qualitätssicherung
* Nachteil: fehlende Aktualität


== Biologisches Problem ==
Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten


Das Biologische Problem wurde hierbei am Beispiel des Gens NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet. In diesem Beispiel kann man Tumorzellen charakterisieren indem man ihr NAT8L-Expressionslevel durch eine Tranksriptomanalyse herausfindet. Dafür kann man Methoden wie RNAseq oder Microarrays verwenden. Alternativ kann man in diesem Beispiel auch in einer Datenbank nach Expressionsdaten in Tumorgewebe dieser Art nachschlagen und somit das Experiment umgehen.
=== Genomdatenbanken ===
* Genomsequenzen, mRNAs, tRNAs rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen
z.B. ENSEMBL-Datenbank, GoldenPath-Browser


== [[Microarrays]] ==
=== Motivdatenbanken ===
* ermöglicht die schnelle Identifizierung von konservierten Sequenzen, die für wichtige Proteinstrukturen codieren
* so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen <ref group="Weblinks"> https://  https://academic.oup.com/nar/article/24/1/197/2359962 (Stand:[20.09.21]) </ref> 
z.B. BLOCKS, Prosite, ProDom


Die Methode der Microarrays wurde als Möglichkeit vorgestellt die Transkriptomaktivität zweier Proben zu bestimmen.
=== Molekulare Strukturdatenbank ===
* primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB


== [[RNAseq]] ==  
=== Transkriptomdatenbanken ===
* Funktionelle Genomik Daten
z.B. SAGE, ArrayExpress, GEO


Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.
=== Refernezdatenbanken ===
*stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed


== [[2.Transkriptom RNA Seq 1|Vergleich RNAseq - Microarrays]] ==


Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.
== Sekundärdatenbank ==
 
* Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot
== [[Datenbanken]] ==
 
Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.
 
Dabei wird zwischen primären und sekundären Datenbanken unterschieden:
Primäre Datenbanken enthalten experimentell ermittelte Daten, die als Rohdaten von Forschern zur Verfügung gestellt werden (archival database) z.B. ENA, Genbank, ArrayExpress, Uniprot/Swissprot
 
Sekundäre Datenbanken enthalten hingegen abgeleitete oder vorhergesagte Daten, die das Ergebnis von Analysen und Literaturrecherchen sind. Es handelt sich hierbei oft um interpretierte Daten aus primären Datenbanken (curated database; knowledgebase) z.B. Expression Atlas, Uniprot/ TrEMBL
 
== FASTA ==
Allgemeines Format zur Übertragung biologischer Daten (Aminosäure- oder Nukleotidsequenzen)
Aufbau:
1. Zeile: >Beschreibung der Sequenz
2. Zeile: Sequenz (IUPAC standard)


== Weiterführendes ==
== Weiterführendes ==
Line 36: Line 40:


https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/
https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/
== Weblinks ==
<references group="Weblinks" />

Latest revision as of 11:46, 26 September 2021

Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken.

Primärdatenbanken

  • Primärdatenbanken enthalten experimentell ermittelte Daten
  • man unterscheidet zwischen zwei Konzepten:

1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB

  • Vorteil: schnelle öffentliche Verfügbarkeit der Sequenzen
  • Nachteil: fehlende Qualitätsprüfung

2. curated Datenbanken sind Datenbanken in der jeder Eintrag geprüft wird z.B. PIR

  • Vorteil: Qualitätssicherung
  • Nachteil: fehlende Aktualität

Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten

Genomdatenbanken

  • Genomsequenzen, mRNAs, tRNAs rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen

z.B. ENSEMBL-Datenbank, GoldenPath-Browser

Motivdatenbanken

  • ermöglicht die schnelle Identifizierung von konservierten Sequenzen, die für wichtige Proteinstrukturen codieren
  • so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen [Weblinks 1]

z.B. BLOCKS, Prosite, ProDom

Molekulare Strukturdatenbank

  • primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB

Transkriptomdatenbanken

  • Funktionelle Genomik Daten

z.B. SAGE, ArrayExpress, GEO

Refernezdatenbanken

  • stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed


Sekundärdatenbank

  • Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot

Weiterführendes

Überblick über biologische Datenbanken und die open-access Philosophie der Hauptanbieter:

https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/

Weblinks