Statistisches Praktikum im SS 2022

Prof. Dr. Gaby Schneider, unter Mitarbeit von Solveig Plomer und Fabian Roth

Seminar im SS 2022. Do. 12:30 Uhr, 711 groß.

Thema 1: Statistische Methoden zur Diabetes-Früherkennung

In Kooperation mit Prof. Dr. Viktor Krozer und Dr. Giacomo Ulisse, Physikalisches Institut, Arbeitsgruppe Terahertz-Photonik, Goethe-Universität Frankfurt

Nichtinvasive Diabetesmessungen mit Millimeterwellen-Spektrometer

Die Daten für die nichtinvasive Untersuchungen an Mäusen wurden mit Hilfe eines Millimeterwellen-Spektrometers erhalten. Das Instrument misst den Durchgang und die Reflexion von elektromagnetischen Wellen durch eine Hautfalte. Das Spektrometer arbeitet derzeit im Frequenzbereich 75 - 110 GHz.

1. Amina Felic und Sandra Pejic: Einführung in den Datensatz und Hauptkomponentenanalyse

Wir untersuchen einen hochdimensionalen Datensatz aus Amplituden- und Phasenmessungen multipler Frequenzen, die an gesunden und verschiedenen Gruppen diabetischer Mäuse erhoben wurden [1]. Durch die hohe Korrelation der gegebenen Variablen können die Daten gut in wenigen Dimensionen dargestellt werden. Dies geschieht mit Hilfe der Hauptkomponentenanalyse, die die Variablen durch Hauptachsentransformationen auf wenige Dimensionen reduziert, die möglichst viel Varianz der Originaldaten erhalten [2]. Damit lässt sich der gegebene 25-dimensionale Datensatz in zwei bis drei Dimensionen darstellen, wobei die neuen Hauptachsen über 90% der ursprünglichen Varianz abbilden und die verschiedenen Gruppen von Mäusen bereits visuell zu gewissem Grad separiert werden können.

[1] Moreno-Oyervides, Aguilera-Morillo, de la Cruz Fernandez, Pascual, Jimenez, Krozer, Acedo (2021) Clinical assessment of W-band spectroscopy for non-invasive detection and monitoring of sustained hyperglycemia. Biomedical Optics Express. 12 (8), 5008-5022
[2] I. T. Jolliffe, 2002. Principal component analysis, 2nd ed., Springer New York Inc.

2. Isabella Bauer: Multivariate zwei-Stichproben Vergleiche

Lassen sich die hinsichtlich ihres Gesundheitsstatus verschiedenen Gruppen auf Basis der durchgeführten nicht-invasiven Messungen unterscheiden? Wir führen paarweise Tests durch und untersuchen so je zwei Gruppen auf statistisch signifikante Unterschiede zwischen den Gruppenmittelwerten. Zur Anwendung kommen parametrische Verfahren wie Hotellings T2-Test [3] sowie nicht-parametrische Verfahren wie Permutationstests. Im Gesamtdatensatz waren die Unterschiede zwischen allen Paaren von Mausgruppen statistisch signifikant, ebenso die Unterschiede zwischen diabetischen Patienten und gesunden Kontrollprobanden.

[3] T. W. Anderson, 2003. An Introduction to Multivariate Statistical Analysis, Third Edition. John Wiley & Sons.

3. Hermann Schulz und Jan-Lukas Wermuth: Multivariate Gruppenunterschiede zwischen vielen Gruppen: MANOVA und LDA

Findet man Unterschiede in der Beeinflussung der Amplitude oder Phase von Wellen unterschiedlicher Frequenzen, wenn man sie durch die Rückenfalte von gesunden bzw. diabetischen oder adipösen Mäusen schickt? Um diese multivariaten Gruppenunterschiede statistisch zu untersuchen, verwenden wir im ersten Schritt eine multivariate Varianzanalyse (MANOVA). Wir diskutieren ihre Eigenschaften und Anwendbarkeit in Abhängigkeit von der Anzahl Beobachtungen bzw. Variablen. Unterschiede zwischen den beobachteten Gruppen waren hochsignifikant.

In einem zweiten Schritt verwenden wir eine lineare Diskriminanzanalyse (LDA), bei der die mehrdimensionalen Daten sukzessive auf Achsen projiziert werden, die die Gruppen möglichst gut trennen. Die Güte der resultierenden Klassifizierungsregeln wird im Anschluss durch eine Aufteilung in Trainings- und Testdaten gemessen, und wir beobachten eine korrekte Klassifikation von über 92% bei den beobachteten Mausdaten.

[4] K.V. Mardia, J.T. Kent and J.M. Bibby (1979). Multivariate Analysis. New York: Academic Press.

4. Rüdiger Krämer: Klassifikation per Support Vector Machine

Neben Modellen, die in der Statistik üblich sind, gibt es auch aus dem Bereich Machine Learning eine Vielzahl von Methoden, um Klassifizierungsprobleme zu behandeln [5]. Eine dieser Methoden ist die Support Vector Machine (SVM, [6]). Die SVM nutzt diejenigen Datenpunkte zur Trennung, die im Grenzbereich der unterschiedlichen Gruppen liegen. Diese werden als Support Vektoren bezeichnet. Obwohl die SVM auch gute Möglichkeiten zur nicht-linearen Trennung bietet, lassen sich die Ergebnisse im Vergleich zur linearen Trennung in unserem Fall damit nicht deutlich verbessern. Zur Beurteilung der Ergebnisse wurde in erster Linie Kreuzvalidierung verwendet. Bei Trennung der Daten von Mäusen lieferte die SVM gute Ergebnisse.

[5] T. Hastie, R. Tibshirani, J. Friedman (2009) The Elements of Statistical Learning: Data Mining, Inference, Prediction Springer Series in Statistics.
[6] C. Cortes, V. Vapnik (1995) Support-Vector Networks. Machine Leaming, 20, 273-297

Thema 2: Detektion von Richtungsänderungen in der Bewegung von Zellorganellen

Im Rahmen des LOEWE-Schwerpunkts CMMS 'Multiscale Modelling in the Life Sciences'. In Kooperation mit Prof. Dr. Enrico Schleiff und Philipp Gebhardt, Institut für molekulare Zellbiologie der Pflanzen, Goethe-Universität Frankfurt

5. Philipp Baumgärtner und Per Andres Pohlmann: Ein geometrischer Ansatz zur Analyse von Richtungsänderungen

Wir untersuchen die durch PCA auf zwei Dimensionen reduzierten Bewegungsdaten von Plastiden in Pflanzenzellen auf die Zeiten der Richtungsänderungen. Dafür bewegen wir zwei Fenster variabler Länge über den Track und betrachten zwei statistische Verfahren, um zu testen, ob der Punkt zwischen diesen Fenstern als Change Point betrachtet werden könnte: Der High Concentration F-Test kann insbesondere im Fall hoher Konzentration der Winkelverteilungen eingesetzt werden [7], im allgemeinen Fall verwenden wir ein Permutationsverfahren nach Byrne [8]. Die Teststatistik beider Tests basiert auf der Tatsache, dass die Länge der Summe zweier Vektoren kleiner oder gleich der Summe der Längen dieser Vektoren ist, wobei Gleichheit bei linearer Anhängigkeit der beiden Vektoren eintritt.

[7] K.V. Mardia, P.E. Jupp, 2000. Directional statistics, J. Wiley & Sons.
[8] R.W. Byrne et al., 2009. Animal Behaviour, Elvsevier Ltd

6. Annika Meyer und Michal Mazur: Hidden Markov Modelle zur Analyse von Bewegungsmustern

Das Hidden Markov Modell ist ein stochastisches Modell, welches mit Hilfe einer Markov Kette von versteckten Zuständen unterliegende Prinzipien der Organellbewegungen explorieren soll. In unserem Vortrag gehen wir davon aus, dass die Organellen zu jedem gemessenen Zeitpunkt einen Winkel und eine Schrittweite wählen, deren Verteilung vom versteckten Zustand abhängt (modifiziert nach [9]). Ziel ist es, die Anzahl und Art der Zustände so zu wählen, dass die Daten möglichst gut beschrieben werden. Anhand eines empirischen Bewegungsmusters diskutieren wir Modelle mit zwei bzw. drei Zuständen, die sich paarweise in den Verteilungen ihrer Schrittlängen und Winkel gut unterscheiden lassen und damit Rückschlüsse auf unterschiedliche Bewegungsprinzipien nahelegen.

[9] Michelot, T.; Langrock, R.; Patterson, T. A. (2016): moveHMM: an R package for the statistical modelling of animal movement data using hidden Markov models. In Methods in Ecology and Evolution 7 (11), pp. 1308-1315

Semesterprogramm

Ca. 60-minütige Vorträge mit Diskussion

1. Einführung in den Datensatz und Hauptkomponentenanalyse

14. April Amina Felic und Sandra Pejic

2. Multivariate zwei-Stichproben Vergleiche

21. April Isabella Bauer

3. Diskriminanzanalyse und multivariate Varianzanalyse

28. April Hermann Schulz und Jan-Lukas Wermuth

4. Klassifikation per Support Vector Machines

5. Mai Nathan Hütsch und Rüdiger Krämer

5. Ein geometrischer Ansatz zur Analyse von Richtungsänderungen

12. Mai Philipp Baumgärtner und Per Andres Pohlmann

6. Hidden Markov Modelle zur Analyse von Bewegungsmustern

19. Mai Michal Mazur und Annika Meyer

Kurzpräsentationen 20-30 Min

9. Juni      Vortrag 1.+2.
23. Juni      Vortrag 3.+4.
30. Juni      Vortrag 5.+6.
7. Juli      Vortrag 7.

Abschlusspräsentation

voraussichtlich 14. Juli 2022

Allgemeine Informationen

Das Statistische Praktikum richtet sich an Studierende der Mathematik mit Statistikkenntnissen (Voraussetzung: bestandene Klausur Statistik 1, Teilnahme an der Vorbesprechung). In Kooperation mit Anwendern werden statistische Denkweisen und Methoden anhand von Daten und Fragestellungen erprobt, die aus der Praxis kommen. Das Statistische Praktikum ist ähnlich konzipiert wie ein Seminar. Themenvergabe erfolgt nach bestandener Klausur, die Bearbeitung der Themen umfasst

- die theoretische Auseinandersetzung mit einem statistischen Verfahren,
- die Anwendung des Verfahrens auf einen Datensatz,
- die intensive Auseinandersetzung mit einem komplexen Datensatz (hoher Programmieraufwand, R)
- die Präsentation von statistischer Methode und Analyseergebnissen (Folien),
- die aktive Mitarbeit im Seminar sowie ggf. Neuanalyse von Datensätzen nach Diskussion im Seminar,
- die Zusammenfassung der eigenen Hauptergebnisse in einem Kurztext (2-3 Sätze) und einer Figur.

Zum Abschluss werden die Ergebnisse in einer Abschlusspräsentation vorgestellt (10 Minuten pro Thema, Methoden und Hauptergebnisse laienverständlich zusammengefasst). Diese Abschlusspräsentation zum Statistischen Praktikum kann als separate Veranstaltung mit 2 CPs z.B. in die Module BaM-SK oder MaM-PR-2 eingebracht werden.

Teilnahmevoraussetzungen:

1. Bestandene Klausur Statistik 1
2. Teilnahme an der Vorbesprechung (!)
3. Anmeldung per Mail am 2.2. nach der Vorbesprechung.
Weitere Informationen zu Anmeldung und Organisation des Praktikums

Hauptseite Statistisches Praktikum