Der rasante, technische Fortschritt produziert riesige Datenmengen. Diese müssen gefiltert, verarbeitet und verständlich präsentiert werden. Deshalb spielen die Datenwissenschaften in allen Institutionen des ETH-Bereichs eine wichtige Rolle. In Zukunft soll deren Entwicklung weiter beschleunigt werden.

Der international renommierte Spezialist für Medizin- und Bioinformatik Gunnar Rätsch, Professor an der ETH Zürich. (Foto: Kellenberger Kaminski Photographie)

Gunnar Rätsch, Professor für Biomedizininformatik an der ETH Zürich, verbindet Datenwissenschaften mit Biomedizin. Diese Schnittstelle wird auch durch einen Beitrag des Universitätsspitals Zürich (USZ) zur Professur sowie durch zusätzliche Räumlichkeiten am USZ gestärkt. Mit seinem Team entwickelt Rätsch beispielsweise ein Frühwarnsystem für Patientinnen und Patienten auf der Intensivstation. Es soll Alarm auslösen, wenn ohne Gegenmassnahmen in wenigen Stunden ein Nierenversagen auftreten würde. Bei den zugrundeliegenden Daten handelt es sich um multidimensionale Zeitreihen physiologischer Messungen und den Ergebnissen von Labortests, die regelmässig durchgeführt werden – eine enorme Datenmenge. «Zur Analyse verwenden wir aktuelle Techniken des maschinellen Lernens, um basierend auf vergangenen Ereignissen sowie durchgeführten Behandlungen den weiteren Verlauf vorherzusagen», erklärt der Datenwissenschaftler. So liesse sich in Zukunft berechnen, wie wahrscheinlich es ist, dass die Nierenfunktion abfällt. «Mit dieser Arbeit können wir einen praktischen Beitrag zur Verbesserung der Behandlung leisten», so Rätsch.

Andere Projekte seiner Gruppe befassen sich mit der Diagnose und Behandlung von Krebs, einem Gebiet, in dem Methoden der personalisierten Medizin bereits angewendet werden. Findet man bei einer Patientin oder einem  Patienten einen Tumor, wird dieser schon heute an führenden Krebszentren molekular untersucht und je nach gefundenen Mutationen im Krebsgenom entsprechend behandelt. Vielerorts wird das jedoch erst gemacht, wenn die Standardmedizin versagt hat. «Dann ist es für eine Behandlung oft zu spät», sagt Rätsch. «Es braucht hier noch mehr Forschung, die belegt, dass die molekulare Analyse hilft.» Um neue Zusammenhänge und Hypothesen zu entdecken, geht der Datenwissenschaftler auch ungewöhnliche Wege. So analysiert er mit seinem Team klinische Textnotizen, die von Ärzten oder vom Pflegepersonal bei etwa 5 000 Patientinnen und Patienten in einem Spital in New York verfasst wurden, und prüft, ob die Beobachtungen dabei Zusammenhänge mit bestimmten Mutationen im Tumor des Patienten aufzeigen. «Unser datenwissenschaftlicher Blickwinkel kann hier ganz neue Einsichten aufzeigen – das ist sehr spannend», sagt Rätsch.

Dem Datenschutz kommt bei medizinischen Studien besondere Bedeutung zu. Neben Gesetzen, die den Zugriff auf Patientenakten genau regeln, gibt es auch wirksame technische Vorkehrungen. So werden die Daten für Forschungszwecke oft pseudonymisiert und anonymisiert. Zudem gewährleistet eine Zugangskontrolle, dass nur Forschende mit gerechtfertigtem Interesse Zugriff erhalten. Für die Datenverarbeitung werden nur Systeme verwendet, die besondere Sicherheitsmerkmale aufweisen. Die ETH Zürich entwickelt zurzeit ein neues sogenanntes «Big Data Computing System», das sich besonders gut für medizinisch sensitive Daten eignet. «Die Systeme sind speziell gesichert. Die Daten werden verschlüsselt gespeichert und spezifische Vorgehensweisen regeln den Zugriff und die Datensicherheit», erklärt Gunnar Rätsch, «so dass wir zu Recht sagen können, dass die Patientendaten bei uns sicher sind. Das ermöglicht uns, an diesen Daten zu forschen und so einen Beitrag zum Fortschritt in der Medizin zu leisten».

Rohdaten direkt vor Ort bearbeiten

Mit medizinischen Daten befasst sich auch Anastasia Ailamaki, Professorin für Computerwissenschaft an der EFPL. Sie und ihr Team entwickeln eine Infrastruktur, welche die Analyse der Daten von Patientinnen und Patienten mit Hirnstörungen unterstützt, um biologische Ursachen für eine Krankheit zu finden. Dies steht im Zusammenhang mit ihrem Engagement beim «Human Brain Project», einem EU-Grossprojekt, welches das menschliche Hirn mittels computerbasierter Modelle nachbilden will. Mit einer von ihr neu entwickelten Datenmanagement-Software namens «RAW» kann die Computerwissenschaftlerin Resultate liefern, ohne dass die Daten zuvor aufbereitet werden. «RAW» greift direkt auf Rohdaten in deren Original-Format und dort, wo sie sich befinden, in Echtzeit zu, passt sich automatisch den Abfragen an und liefert so einfach und effizient Antworten. «RAW Labs» heisst das Spin-off-Unternehmen, das Anastasia Ailamaki 2015 gegründet hat und im EPFL-Innovationspark ansässig ist, um die gefragte Software kommerziell zu vertreiben.

«Viele Firmen wie beispielsweise Facebook benutzen nur zehn Prozent der vorhandenen Daten», so Ailamaki. «Da wir vorher nicht wissen, welche Daten sinnvoll sind, müssen wir alle Daten mit Hilfe passender Software bereinigen und ins System laden, bevor eine Analyse möglich ist. Der Datenwissenschaftler, der dafür angestellt ist, verwendet 80 Prozent seiner gut bezahlten Arbeitszeit für diese Prozesse, noch bevor er die Analyse machen kann», sagt die Forscherin. Ihre Software identifiziert dagegen automatisch die für eine bestimmte Abfrage benötigten Daten, lokalisiert diese, liefert das Resultat und speichert es, um künftige, ähnliche Abfragen schneller zu beantworten. «Im Wesentlichen schreiben wir einen Computercode, der wiederum einen anderen Computercode erzeugt und sich später daran erinnert», erklärt die Wissenschaftlerin.

Über 100 Jahre zurückblicken

Das Sammeln und Analysieren riesiger Datenmengen ist in der Medizin, aber auch in vielen anderen Wissenschaftsgebieten eine relativ neue Arbeitsmethode. In der Umweltforschung hat sie eine lange Tradition. So arbeiten die Forschenden der Eidgenössischen Forschungsanstalt für Wald, Schnee und Landschaft WSL mit Daten, die über mehr als 100 Jahre zurückreichen. Die Aufzeichnung und Archivierung der Beobachtung von Wäldern, Wetter oder Schneehöhe galt lange als langweilige, wissenschaftlich unergiebige Arbeit. Durch den Klimawandel und die neuen computertechnischen Möglichkeiten ist das früher häufig etwas belächelte Monitoring hoch aktuell und liefert wichtige Voraussagen, womit wir künftig rechnen müssen. Christoph Marty vom WSL-Institut für Schnee- und Lawinenforschung SLF in Davos befasst sich mit der Schneedecke und deren Veränderung in Vergangenheit und Zukunft. «Aus kurzen Zeitreihen über die letzten Dekaden ist es schwierig, ein klares Signal herauszulesen, da spielt das Chaos des Wetters eine zu grosse Rolle», erklärt der Wissenschaftler. «Erst wenn man langjährige Daten anschaut, sieht man durch das grosse Rauschen hindurch Trends.»

So waren die Frühwinter 2015 und 2016, die den Wintersportorten kaum Schnee brachten, eher seltene Ereignisse. «Aufgrund der Modelle, mit denen wir unsere Daten füttern, können wir aber sagen, dass in Zukunft solche Situationen immer häufiger auftreten werden», sagt Christoph Marty. Aufgrund der früheren Schneehöhen-Messungen lassen sich die Computermodelle testen, mit denen Marty und seine Kollegen die Auswirkungen des Klimawandels auf die Schneedecke in Zukunft vorhersagen. Die so verifizierten Modellrechnungen zeigen eindeutig, dass man für Wintererlebnisse, die eine zusammenhängende, mächtige Schneedecke brauchen, künftig in höhere Regionen reisen muss. Doch bei der Lawinensituation sind die Resultate komplizierter. «Es wird mit grosser Wahrscheinlichkeit weniger Lawinen geben», sagt der WSL-Forscher, «aber in einzelnen Wintern können Lawinen möglicherweise so gross werden wie selten in der Vergangenheit».

Wenn Zuschauer im Takt applaudieren

Aus der Datenfülle wissenschaftliche Erkenntnisse gewinnen: Dies erfordert immer häufiger eine multidisziplinäre Zusammenarbeit. Die statistische Physik hat eine Fülle von Methoden hervorgebracht, um das Verhalten von interagierenden Vielteilchensystemen zu beschreiben und zu verstehen.  «Ein neuer Trend ist, diese Verfahren auf lebende Materie anzuwenden», sagt der Physiker Carlo Albert, der sich an der Eawag mit Phytoplankton beschäftigt. Dies sind Algen und Bakterien, welche die Grundlage der Nahrungskette in Ozeanen und Seen bilden, aber auch für Mensch und Tier gefährlich werden können, wenn sich einzelne giftige Arten bei einer Algenblüte plötzlich massenhaft vermehren.

Mit modernster Lasertechnik vermisst der Ökologe Francesco Pomati von der Eawag Millionen von Plankton-Teilchen in Schweizer Seen. Obwohl diese ein Eigenleben haben und auf Veränderungen reagieren, gleichen sie in mancherlei Hinsicht physikalischen Teilchen. «Selbst in komplexen Systemen treten universelle, einfache Phänomene auf», sagt Albert. «Ein Beispiel dafür ist der Applaus nach einem Konzert. Die Zuschauer synchronisieren sich oft plötzlich und klatschen im Takt.» Beim Phytoplankton analysierten die Forschenden in einer ersten Phase die Verteilungen bestimmter Eigenschaften wie Länge, Volumen oder Pigmentierung der Teilchen, um Gesetzmässigkeiten herauszuarbeiten. Dabei zeigten sich oft sehr breite Verteilungen, die typisch sind für Systeme, die sich am sogenannten kritischen Punkt befinden, wo Störungen Reaktionen auf allen Skalen auslösen können. Ob sich daraus Voraussagen über Algenblüten ableiten lassen, wollen die Forschenden in einer zweiten Phase herausfinden.

Unerwartetes aufdecken

Die rasante technische Entwicklung hat nicht nur Wissenschaftsgebiete wie Medizin oder Umweltforschung erfasst, sondern revolutioniert auch die Datenwissenschaften selbst. Denn die Datenmengen wachsen exponentiell, so auch am Paul Scherrer Institut (PSI) mit seinen Grossforschungsanlagen. «Wir haben einen enormen Datenberg, den man innert nützlicher Frist abbauen muss», sagt Gabriel Aeppli, Leiter des Bereichs Synchrotronstrahlung und Nanotechnologie am PSI. Früher sammelte man Daten, baute ein Modell und passte dieses an. «Dafür hat man heute kaum mehr Zeit», urteilt der Experte. «Die Daten müssen schneller und effektiver abgearbeitet werden, damit man mit dem Datensammeln Schritt halten kann.» Schlagworte sind Data Mining, Machine Learning und Deep Learning. Damit ist man nicht nur schneller, sondern entdeckt auch Dinge, die man mit modellbasierter Verarbeitung übersieht. «In all den Pixeln, die wir anschauen, gibt es Dinge, die man für Rauschen hält und nicht weiter beachtet, doch die moderne Informatik kann Unerwartetes aufdecken», sagt Aeppli, der auch Professor an der ETH Zürich und der EPFL ist.

«Die neue Art ‚Data Science’ mit Automatisierung, Standardisierung und Darstellung der Ergebnisse, so dass sie für die Anwender verständlich sind, hat unsere Arbeit total verändert», meint Daniele Passerone, Gruppenleiter «Atomistic Simulation» an der Empa. Anfänglich sei er skeptisch gewesen, doch wenn die Maschine so viel Arbeit abnehme, bleibe mehr Zeit, sich in ein Thema zu vertiefen und kreativ zu sein. «Die Ideen sind nicht automatisiert», meint der theoretische Physiker.

Neue Nanostrukturen aus dem Computer

Die Empa-Forschenden entwickeln und stellen mit Hilfe von Computersimulationen neue Materialien her, beispielsweise Streifen aus wabenförmigem Kohlenstoff, die nur ein Atom dick sind. Ad-hoc hergestellte Moleküle reagieren auf einer Metalloberfläche, und eindimensionale defektfreie Nanostrukturen entstehen durch einen Bottom-up-Prozess. Aus solchen Graphennanostreifen möchte man neuartige elektronische Bauteile herstellen. Um dem Nanomaterial die gewünschten elektronischen Eigenschaften zu geben, kamen die Forschenden auf die Idee, einige Kohlenstoffatome durch fremde Atome zu ersetzen, wie zum Beispiel Bor oder Stickstoff. Doch wie viele Boratome braucht es? «Im Computer können wir die elektronischen Eigenschaften von allen möglichen Nanostrukturen mit einem, zwei oder drei Boratomen berechnen», sagt Passerone, «doch dazu braucht es einen effizienten Weg, um grosse Mengen von Daten zu verarbeiten». Aus den möglichen Kombinationen kann man dann diejenige auswählen, die mit herstellbaren molekularen Bauteilen kompatibel sind.

Im Rahmen des Nationalen Forschungsschwerpunkts MARVEL wurde unter der Leitung der EPFL eine automatisierte, interaktive Infrastruktur und Datenbank entwickelt, die diese Arbeit erledigen kann. «Ich fungiere als Schnittstelle zwischen MARVEL und der Empa», erklärt Passerone. Ist die Fragestellung in einem Ablauf definiert, arbeitet das System diesen «Workflow» automatisch ab, indem es die Aufgaben auf lokale Computercluster, an ferne Rechner in der «Cloud» oder an Supercomputer verteilt. So entsteht beispielsweise eine Datenbank mit 1000 verschiedenen eindimensionalen Kohlenstoffstrukturen, die eine durch die Computersimulation vorgeschrieben Verteilung von fremden Atomen  enthalten. Daraus sucht das System diejenigen heraus, die sich tatsächlich für elektronische Anwendungen eignen könnten. Erst dann prüfen die Forschenden im Experiment, ob sich die theoretischen Voraussagen bewahrheiten.

Swiss Data Science Center

Den Einsatz moderner Datenwissenschaften in der Schweiz beschleunigen: Dies ist das Ziel einer vom ETH-Bereich lancierten «Initiative for Data Science». In diesem Rahmen startet im Januar 2017 das «Swiss Data Science Center» der EPFL und der ETH Zürich mit einem Budget von 30 Millionen Franken für vier Jahre. Leiter des Zentrums ist Olivier Verscheure: «Die erste Aufgabe, die unsere Plattform angehen wird, heisst Dateninkubation – wie erhält man aus Rohdaten verwertbare Informationen, wie lassen sich störendes Rauschen entfernen und Lücken füllen.»

Möchte man heute Daten über die Gesundheit mit Luftverschmutzungs- und Verkehrsdaten korrelieren, stösst man schnell auf Schwierigkeiten, weil die Daten aus verschiedenen Silos stammen und nur von Fachleuten aus den jeweiligen Gebieten verstanden werden. «Jemand, der sich nicht mit Luftverschmutzung auskennt, weiss nicht wie er die Daten aus einem CO2-Sensor als Funktion der Luftfeuchtigkeit rekalibrieren muss», erklärt Verscheure. «Indem wir mit verschiedenen Teams zusammenarbeiten, können wir alle Arten von Datensätzen und Datenquellen einführen, so dass die Information von Forschenden aus allen Fachbereichen und auch der Schweizer Industrie ausgewertet werden können.»

In einem zweiten Schritt kommen die modernen Techniken wie das maschinelle Lernen zum Zug. Damit könnte man beispielsweise herausfinden, dass der Verkehrsfluss einen Zusammenhang mit dem Wetter hat. So wäre es möglich, zukünftige Staus als Funktion von früheren Verstopfungen und Wetterprognosen vorherzusagen. Und so liessen sich auch die Luftverschmutzung und damit Gesundheitsrisiken berechnen. «Wenn es um klinische Daten geht, ist der Datenschutz natürlich besonders wichtig», so Verscheure. «Da müssen wir zeigen, wie man Datensicherheit gewährleistet.»

Besser als erlaubt

Doch auch die modernen Datenverarbeitungsmethoden selbst bergen Gefahren. Maschinelles Lernen oder «Deep Learning» stecken bereits heute in Spamfiltern, Bild- und Gesichtserkennung oder Suchmaschinen bei Google und Facebook und haben in vielen Anwendungsgebieten die traditionellen Techniken in kaum drei Jahren überholt. «Deep Learning funktioniert schockierend gut, viel besser, als es unserer Meinung nach sollte», sagt Edouard Bugnion, Professor für Computerwissenschaften an der EPFL. «Eine Maschine kann von einer Million Äpfeln die 50 ähnlichsten präsentieren. Wie sie das macht, ist das Rätsel von Deep Learning», erklärt der Wissenschaftler.

Die verwendeten Modelle sind oft so kompliziert, dass man sie nicht mehr verstehen kann. Was bei Spamfiltern niemanden stört, wird bei anderen Anwendungen problematisch. «Soll es uns als Gesellschaft kümmern, wie autonome Fahrzeuge sich fortbewegen», fragt Bugnion: «Die Strafe für einen Fehler könnte ja ziemlich hoch sein.» Auch die Wissenschaftler möchten nachvollziehen, wie ein Forschungsresultat zustande gekommen ist. Und besonders heikel könnte es werden, wenn die Maschine der Ärztin ein bestimmtes Medikament für einen Patienten empfiehlt, ohne dass diese weiss warum. «Das wird nicht funktionieren», ist Olivier Verscheure überzeugt.

Er hofft denn auch, dass das Zentrum dazu beitragen kann, die Lücke zwischen den Datenwissenschaftlern und den wissenschaftlichen Anwendern zu schliessen. «Das ist eine riesige Herausforderung», sagt der Leiter. Wichtig sei aber auch, dass grosse Anstrengungen bei der Ausbildung von Wissenschaftlern gemacht werde, sagt Edouard Bugnion. EPFL und ETH Zürich bieten deshalb neu Masterstudiengänge in Datenwissenschaften an. «Das ist ein wichtiger Schritt», meint EPFL-Professorin Anastasia Ailamaki. Denn so würden sich die Studierenden bewusst, wo ihre Arbeit langfristig nützlich sei.

Gabriel Aeppli erhofft sich viel von einer Zusammenarbeit des PSI mit dem neuen Swiss Data Science Center, zum Beispiel beim Aufklären der Struktur von Biomolekülen. Der neue Schweizer Freie-Elektronen-Röntgenlaser (SwissFEL) wird pro Sekunde bis zu hundert Röntgenbildern von Mikrokristallen und Biomolekülen liefern. Um derartige Experimente optimal zu steuern und daraus zu errechnen, wo sich die Atome in den Molekülen befinden, und damit die räumliche Struktur der Moleküle zu bestimmen, braucht es eine entsprechende Software. «Gemeinsam mit anderen Röntgenforschenden weltweit entwickeln wir eine solche Software», sagt Aeppli. «Diesen Prozess könnten wir beschleunigen, wenn wir unser Wissen mit den Ressourcen ergänzen, die der ETH-Bereich in Zukunft zur Verfügung stellen wird».