|  Impressum  |  Login | 
Home
Projekt
Team
News
Downloads
Team Space
 

News

7. Projekt-Meeting

Teilprojekte präsentieren Ergebnisse zum letzten Reviewing mit dem Advisory Board und allen Projektteilnehmern

05.03.2010 Zum siebten und letzten Projekt-Meeting waren neben den Projektmitgliedern auch das externe Advisory Board sowie als Gast-Reviewer Herr PD Dr. Wiemann (s. Bild), kommissarischer Leiter der Abteilung Molekulare Genomanalyse im DKFZ und Sprecher des Projektkomitees des NGFN, eingeladen.

Die Ergebnisse der einzelnen Teilprojekte wurden präsentiert und ausführlich diskutiert. Dieses letzte Review lieferte wichtige Hinweise für die Darstellung und thematische Gewichtung in den zu erstellenden schriftlichen Abschlussberichten, die noch in diesem Jahr auch als Sammelband in der TMF-Schriftenreihe publiziert werden sollen.

Beschlossen wurde außerdem, zur Dissemination der Ergebnisse eine öffentliche Informationsveranstaltung durchzuführen. Diese wird am 21.06.2010 in Berlin stattfinden.

Die präsentierten Ergebnisse in Stichpunkten:

Validierung

  • Vorschläge für Verfahren zur automatischen Beurteilung von Cluster-Plots (Filter für die Standard- Qualitätskontrolle); publiziert (Ziegler 2009, Genet Epidemiol)
  • Vergleich der im vorangegangenen Berichtszeitraum identifizierten Verfahren zum Allel-Calling; publiziert (Vens et al. 2009, BMC Proc)
  • Bewertung der Verfahren (BRLMM, Chiamo, JAPL) und Empfehlungen zu ihrer Verwendung; präsentiert u.a. auf der DAGStat 2010
  • Vergleich der CNV Calling-Algorithmen (PennCNV, QuantiSNP CNVpartition) auf der Basis von Illumina HumanHAP550 array dataDefinition optimaler Parameter für jeden Algorithmus
  • Vergleichende Evaluierung der entsprechend parametrisierten Algorithmen. Ergebnis: QuantiSNP ist den anderen Algorithmen überlegen, PennCV als plug-in zu langsam, CNVpartition einfach zu installieren, aber langsam in der Ausführung und schlecht dokumentiert.
  • Sicherstellung des Zugangs zu den eingesetzten Algorithmen: PennCNV am Steinbeis-Zentrum in Heidelberg installiert und abrufbar. QuantiSNP und partitionCNV aus IP rechtlichen Gründen nicht öffentlich.

Plausibilitäskriterien

  • Checkliste für Begleitinformationen zu SNP-Daten
  • Literaturübersicht zu etablierten Kriterien der Qualitätskriterien von SNP-Genotypen
  • Standards für die Aufarbeitung von SNP-Daten: Es konnte nach eingehender Analyse keine generelle Empfehlung für statistische Qualitätskriterien gegeben werden. Es wurde im Gegenteil gezeigt, dass der Typ des verwendeten Chips wesentlicher Einflussfaktor auf Art und Vorgehen der statistischen Analyse ist.
  • Untersuchung und Empfehlung geeigneter Software für die Aufbereitung von SNP-Daten abgeschlossen. Im Ergebnis konnten deutliche (Geschwindigkeits-)Vorteile für das Programm GenABEL nachgewiesen werden.
  • Überprüfung der Sinnhaftigkeit verschiedener statistischer Qualitätskriterien, Prozeduren und Schwellenwerte abgeschlossen. Es wurde gezeigt, dass und wie die Abhängigkeit zwischen dem Inflationsfaktor der Auswertestatistik λ und den jeweiligen Parameterwerten wertvolle Information für die Wahl geeigneter Schwellenwerte der jeweiligen Parameter liefert.
  • Katalog nicht-kanonischer Intensitäts-Cluster von SNPs auf Illumina Genotypisierungschips erstellt. Er dient als Grundlage für eine Verbesserung automatisierter Calling-Verfahren, um nicht nur 3 sondern auch 4, 5 und mehr Cluster korrekt zu erfassen und Genotypen mit höherer Präzision zu erhalten.

Fehlererkennung und -korrektur

  • Fehlerraten: die Testung von drei Chip-Typen ergab die höchste Fehlerrate bei AGWH SNP Array 6.0 (0,98%), die niedrigste bei Illumina HumanHap 550k (0,0025%). Die Transition „homozygot AA > homozygot BB“ hat deutlich höhere Fehlerraten als „homozygot > heterozygot“ und „heterozygot > homozygot“. Fehlerwahrscheinlichkeiten sind offenbar unabhängig vom SNP Variations-Typ, d.h. den beteiligten Nukleotiden. Die Wahl des Fehlermodells spielt eine untergeordnete Rolle bei der Berechnung von Fehlerraten.
  • High-Level-Parameter: Die Call Rate hat einen wesentlich größeren Einfluss auf Fehlerraten als HWE und MAF. Kombinierte Qualitätsparameter werden empfohlen für HH550k. Beim AGWH SNP 6.0 scheinen High-Level-Parameter für die Qualitätskontrolle ungeeignet zu sein.
  • Qualitätsparameter für Cluster-Prozesse: Scores zur Clustervalidierung sind geeignet, fehlerhafte Genotypen zu identifizieren. Kriterien wie Call Rate, MAF oder HWE sind unverzichtbar und komplementär zu Scores. Der „silhouette score“ wird als unabhängiges Kriterium für die Qualitätskontrolle empfohlen.

Software

  • Software („RepliCheckSNP“) zur standardisierten und systematischen Qualitätskontrolle von Genotypisierungsdaten aus Replikationsstudien

Datenhaltung und -transfer

  • Empfehlungen für Datenformate hinsichtlich Speicherungs- und Transfereffizienz: im Ergebnis zeigt sich eine Festlegung auf einheitliche Formate als nicht zielführend. Stattdessen sollten die Daten in Form und Inhalt sorgfältig dokumentiert werden. Empfehlungen für geeignete Kompressionsverfahren wurden erarbeitet.
  • Datenbankstrukturen: relationale Datenbanken und BLOBs wurden als besonders geeignet befunden.
  • Backup/Archivierung: es konnten mehrere kommerzielle sowie frei verfügbare Tools als geeignet identifiziert werden.
  • Erarbeitete Datenschutzempfehlungen beinhalten u.a. die Einbindung von Datentreuhändern.
  • Testen von Programmen und Formatversionen: im Ergebnis sind für Formatkonvertierungen altbewährte Technologien aus dem Compilerbau (Scanner- und Parser-Generatoren) und aus der Programmverifikation (program checking) auch für Genotypisierungsdaten geeignet. Die Programmierung von Software sollte Methoden wie Extreme Programming und die Agile Softwareentwicklung verwenden, da diese Tests prinzipiell bereits enthalten.

Download der Präsentationen (Login erforderlich):


 

Seite drucken      Seitenanfang  Copyright 2008 by TMF