Nur wenn die Daten jeder Datenquelle verstanden werden, können sie sinnvoll verknüpft werden
Die National Institutes of Health der USA verpflichten Forschende schon seit langer Zeit, die Daten aus Kohortenstudien und Interventionsstudien anderen Forschenden zur Verfügung zu stellen. Das Center for Disease Control and Prevention der USA stellt die Daten des berühmten National Health and Nutrition Examination Survey seit vielen Jahren online zur Verfügung. Diese Praxis des offenen Gebrauchs von Daten war jedoch bis vor kurzem weltweit nicht üblich und nimmt, auch in der Schweiz, erst Fahrt auf… – Ein Blog-Post zur SWR Schrift Biomedical knowledge production in the age of big data von Sabina Leonelli.
Eine Reihe von Entwicklungen hat dazu beigetragen, dass Daten aus biomedizinischer Forschung häufiger verfügbar werden für Forschende, welche nicht selbst an einer bestimmten Studie beteiligt waren. Dazu gehört die Notwendigkeit für eine höhere Reproduzierbarkeit der Forschung, eine bessere Nutzung von vorhandenen Daten, die Reduktion von publication and reporting biases (v.a. für die Industrie, welche vermehrt Daten aus Trials zur Verfügung stellt), das Poolen von Daten aus ähnlichen Studien oder der Trend zu immer multidimensionaleren Analysen, welche Daten aus verschiedenen Quellen berücksichtigen.
Big Data ist daher kein neues Phänomen in der biomedizinischen Forschung, doch die immer grösser werdende Verfügbarkeit von Datensätzen aus ganz unterschiedlichen Quellen bietet ein grosses Potential für multidisziplinäre Forschung und erfordert einen anderen Umgang mit Daten, als man es bisher in der traditionellen (stark auf einzelne Disziplinen ausgerichteten) biomedizinischen Forschung gewohnt ist. Wie Sabina Leonelli argumentiert, ist es ein wichtiges Charakteristikum von Big Data in der biomedizinischen Forschung, dass die Daten selbst ein wichtiges Ergebnis von Forschung geworden sind und sich deren Umgang mit 7 ‘V’s charakterisieren lassen. Unterschiedliche Daten (‘Variety) werden derzeit in grossen Mengen (‘Volume’) und rasch (‘Velocity) im Rahmen von Forschungsprojekten, in der klinischen Routine (z.B. grosse Spitalorganisationen in den USA oder Biobanken von Unispitälern) oder automatisch (z.B. Umweltdaten oder Daten aus self-tracking devices) generiert. Daraus ergeben sich Fragen, wie lange solche Daten überhaupt verfügbar sind (‘Volatility’) und von welcher Qualität und welchem Nutzen sie sind (‘Veracity’, ‘Validity’ und ‘Value’).
Unterschiedliche Wissenschaftskulturen
Diese letzteren Fragen sind es, welche den Bericht von Sabina Leonelli besonders auszeichnen, da sie nicht leicht zu beantworten sind und letztendlich damit zusammenhängen, dass sehr unterschiedliche Wissenschaftskulturen im Bereich von Big Data in der biomedizinischen Forschung zusammenkommen. Was von Epidemiologen vielleicht teils als nicht valide Daten angesehen wird, kann von Systembiologen als sehr nützlich erachtet werden. Der Wert von Daten kann aus Sicht der Wissensgenerierung beurteilt werden, jedoch auch aus ökonomischer, legaler oder ethischer Sicht. Ein gegenseitiges Verständnis dieser unterschiedlichen Wissenschafts- und gesellschaftlichen Kulturen ist daher gemäss Sabina Leonelli unabdingbar, wenn tragfähige und langfristige Lösungen für grössere Dateninfrastrukturen erarbeitet werden sollen, wie dies auch das Swiss Personalized Health Network verfolgt. Falls dies gelingt, werden Big Data-Analysen in der biomedizinischen Forschung nicht, wie manchmal leider der Fall, auf etwas nebulösen Methoden beruhen und wenig plausible und reproduzierbare Resultate liefern, sondern wichtige Erkenntnisse für die Prävention, Diagnose und Therapie von Krankheiten erzeugen.
Ein ganz zentraler Punkt von Sabina Leonelli, den ich als Epidemiologe gut nachvollziehen kann, ist die grundlegende Frage, wie man Daten aus verschiedenen Quellen zusammenbringen und sinnvoll kombinieren darf und kann. Hinter jeder Datengewinnung steht die Tradition einer Disziplin, wie man die Forschungsfragen stellt, welche Methoden man benutzt, wie man Daten sammelt und wie man diese in Datenbanken so ablegt, dass sie nutzbar sind. Aus den reinen Daten in diesen Datenbanken ist dieser epistemologische Hintergrund verschiedener Disziplinen nicht direkt ersichtlich. Daher kommt den Meta-Daten oder Meta-Informationen, welche die vorhandenen Daten charakterisieren, eine so grosse Bedeutung beim Aufbau grosser Dateninfrastrukturen zu. Nur wenn die Daten jeder Datenquelle verstanden werden, können sie sinnvoll verknüpft und zu einem gewissen Mass harmonisiert werden. Daher kann ich die Argumentation von Sabina Leonelli nachvollziehen, dass Big Data in der biomedizinischen Forschung einen sorgfältigen Aufbau einer Dateninfrastruktur und den Einbezug relevanter Stakeholders inklusive der Bevölkerung erfordert. Es wird somit auch klar, dass es eine Kombination aus inhaltlichem Wissen der beteiligten Disziplinen, eine sehr genaue Kenntnis der Daten, die zusammengebracht werden, sowie technisches Know-how im Bereich von Dateninfrastrukturen benötigt. Die delikate Balance, die es zu erreichen gilt, ist, die Diversität und den Reichtum einzelner Datenquellen in einer grösseren Dateninfrastruktur möglichst zu erhalten und doch eine Verknüpfbarkeit und Harmonisierung der Daten zu erreichen, die Big Data-Analysen in der biomedizinischen Forschung erst ermöglichen. Natürlich stellen sich auch, wie Sabina Leonelli betont, viele legale, ethische und andere Fragen, die gesellschaftlich gelöst werden müssen, um das Vertrauen der Forschenden, Studienteilnehmern und der Öffentlichkeit für Dateninfrastrukturen wie das Swiss Personalized Health Network zu gewinnen.
Der Bericht von Sabina Leonelli schliesst mit fünf Prinzipien, welche berücksichtigt werden sollten, wenn Dateninfrastrukturen für Big Data in der biomedizinischen Forschung aufgebaut werden. Diese beziehen sich auf ethische und Sicherheitsaspekte, Einbezug der Öffentlichkeit und Vertrauensbildung, auf einen multidisziplinären Ansatz und ein Abwägen, welche Daten öffentlich zugänglich sein sollen, sowie auf die Notwendigkeit einer hochqualitativen Dateninfrastruktur und eines Datenmanagements. Diese Prinzipien sind gut nachvollziehbar und bieten einen guten Leitfaden. Eine für mich sehr wichtige Erkenntnis aus ihrem Bericht ist der Hinweis, dass den unterschiedlichen Wissenschaftskulturen Sorge getragen werden muss, damit solch ein multidisziplinärer Effort wie der Gebrauch von Big Data in der biomedizinischen Forschung sinnstiftend gestaltet werden kann.
Der Autor:
Prof. Milo Puhan wurde 1975 geboren und studierte an der Universität Zürich Medizin. Er arbeitete zunächst als Assistenzarzt an der Zürcher Höhenklinik Wald und später als “Research Fellow” im Horten-Zentrum der UZH. 2006 promovierte er an der Universität Amsterdam in Epidemiologie. Danach wurde Prof. Puhan PROSPER Fellow des Schweizerischen Nationalfonds unterstützt. Von 2008 bis 2012 war er Associate Professor mit tenure track am Department of Epidemiology der Johns Hopkins Bloomberg School of Public Health. Seit 2013 ist er Ordinarius für Epidemiologie und Public Health an der Universität Zürich und Direktor des EBPI: Milo Puhan’s Hauptinteresse in der Forschung liegt auf der Prävention und dem Management von chronischen Krankheiten und der Entwicklung von Tools, welche eine präferenzen-basierte Gesundheitsversorgung unterstützen. Er ist der Principal Investigator des Schweizer MS Registers, der LuftiBus-Swiss National Cohort, und von einigen anderen Studien. Milo Puhan ist aktuell Präsident des Nationalen Forschungsprogramms 74 Smarter Health Care des Schweizerischen Nationalfonds, Vize-Präsident der Swiss School of Public Health und leitet das PhD Programm in Epidemiology & Biostatistics der Life Science Zurich Graduate School. In 2014 erhielt der den COPD Research Award der European Respiratory Society und in 2017 den Ig Nobel Prize für seine Arbeit über das Digeridoo zur Behandlung der obstruktiven Schlafapnoe und des Schnarchens.