Computational Biostatistics

Mitarbeiter: Dr. Colin Griesbach, PD Dr. Tobias Hepp, Dr. Anja Rappl

Die statistische Analyse hochdimensionaler Daten, die eine große Anzahl an erklärenden Merkmalen enthalten, hat in der biomedizinischen Praxis zunehmend an Bedeutung gewonnen. Folglich werden statistische Methoden benötigt, mit denen Daten mit komplexen Abhängigkeitsstrukturen analysiert werden und mit deren Hilfe informative, erklärende Merkmale für eine Zielgröße von nicht-informativen Merkmalen getrennt werden können. Boosting ist eine der vielversprechendsten statistischen Methoden, mit der diese Probleme adressiert werden können. Der Fokus des Projektes liegt auf der Entwicklung und Verbesserung von Boosting-Methoden für Datenstrukturen, die bisher nicht mit klassischen Boosting-Verfahren analysiert werden konnten. Beispielsweise wurden Boosting-Methoden für die Analyse von GAMLSS-Modellen entwickelt. GAMLSS-Modelle stellen eine beliebte statistische Methode zur Modellierung multipler Parameter der Verteilung einer Zielgröße in Regressionsmodellen dar. Die bisher in der Literatur vorgeschlagenen Schätzmethoden für GAMLSS-Modelle sind auf hochdimensionale Daten nicht anwendbar und erfordern verzerrte Methoden zur a-priori-Merkmalsselektion. Der neue Boosting-Algorithmus erlaubt die gleichzeitige Merkmalsselektion und die Schätzung der Effekte der selektierten Merkmale. Im Rahmen des Projektes wurden außerdem die Eigenschaften von Boosting-Methoden hinsichtlich ihrer Fähigkeit zur Optimierung von AUC-basierten Gütekriterien in Klassifikation und Überlebenszeitanalyse analysiert. Darüber hinaus werden Boosting-Methoden für die Analyse sogenannter Joint Models, bei denen die Modellierung zweier inhaltlich gekoppelter Zielgrößen, bestehend aus einer Ereigniszeit-Komponente und einer longitudinal beobachteten Outcome-Komponente, über einen Assoziationsparameter miteinander verbunden wird, entwickelt und in ihren Eigenschaften analysiert.