Robert Chang, ein Augenarzt aus Stanford, ist normalerweise damit beschäftigt, Tropfen zu verschreiben und Augenoperationen durchzuführen. Vor einigen Jahren entschloss er sich jedoch, einen neuen Trend in seinem Bereich zu verfolgen: künstliche Intelligenz. Ärzte wie Chang verlassen sich häufig auf die Bildgebung ihrer Augen, um die Entwicklung von Zuständen wie dem Glaukom zu verfolgen. Mit genügend Scans, überlegte er, könnte er Muster finden, die ihm helfen könnten, die Testergebnisse besser zu interpretieren.
Gregory Barber behandelt Kryptowährung, Blockchain und künstliche Intelligenz für WIRED.
Das heißt, wenn er genügend Daten in die Hände bekommen könnte. Chang begann eine Reise, die vielen medizinischen Forschern vertraut ist, die sich mit maschinellem Lernen beschäftigen möchten. Er begann mit seinen eigenen Patienten, aber das war bei weitem nicht genug, da das Training von KI-Algorithmen Tausende oder sogar Millionen von Datenpunkten erfordern kann. Er füllte Stipendien aus und appellierte an Mitarbeiter anderer Universitäten. Er ging zu Spenderregistern, in denen die Leute freiwillig ihre Daten zur Verwendung durch die Forscher mitbrachten. Aber schon bald stieß er gegen eine Wand. Die Daten, die er brauchte, waren an komplizierte Regeln für den Datenaustausch gebunden. "Ich habe im Grunde genommen um Daten gebeten", sagt Chang.
Chang glaubt, er könnte bald eine Lösung für das Datenproblem finden: Patienten. Er arbeitet mit Dawn Song, einer Professorin an der Universität von Kalifornien-Berkeley, zusammen, um eine sichere Möglichkeit für Patienten zu schaffen, ihre Daten mit Forschern zu teilen. Es basiert auf einem Cloud-Computing-Netzwerk von Oasis Labs, das von Song gegründet wurde, und ist so konzipiert, dass Forscher die Daten selbst dann nicht sehen, wenn sie zum Trainieren von KI verwendet werden. Um Patienten zur Teilnahme zu ermutigen, werden sie bezahlt, wenn ihre Daten verwendet werden.
Dieses Design hat Auswirkungen, die weit über die Gesundheitsversorgung hinausgehen. In Kalifornien schlug Gouverneur Gavin Newsom kürzlich eine sogenannte „Datendividende“vor, die den Einwohnern Wohlstand von den staatlichen Technologiefirmen übertragen würde, und der US-Senator Mark Warner (D-Virginia) hat einen Gesetzesentwurf vorgelegt, der von den Firmen verlangt, einen zu stellen Preisschild auf den persönlichen Daten jedes Benutzers. Der Ansatz beruht auf der wachsenden Überzeugung, dass die Macht der Technologiebranche in ihren riesigen Speichern von Benutzerdaten verwurzelt ist. Diese Initiativen würden dieses System verärgern, indem sie erklären, dass Ihre Daten Ihnen gehören und dass Unternehmen Sie dafür bezahlen sollten, ob es sich um Ihr Erbgut oder um Ihre Facebook-Anzeigenklicks handelt.
In der Praxis sieht die Idee, Ihre Daten zu besitzen, jedoch schnell etwas… verschwommen aus. Im Gegensatz zu physischen Gütern wie Ihrem Auto oder Ihrem Haus werden Ihre Daten über das Internet verteilt, mit anderen Quellen zusammengeführt und zunehmend durch eine russische Puppe maschineller Lernmodelle gespeist. Während die Daten die Form ändern und den Besitzer wechseln, wird ihr Wert von jedermann erraten. Darüber hinaus führt der aktuelle Umgang mit Daten zwangsläufig zu widersprüchlichen Anreizen. Die Prioritäten, die ich für die Bewertung meiner Daten habe (z. B. die Privatsphäre), stehen in direktem Widerspruch zu Facebooks (Betankung von Anzeigenalgorithmen).
Song ist der Meinung, dass das gesamte System überarbeitet werden muss, damit der Besitz von Daten funktioniert. Die Daten müssen von den Benutzern kontrolliert werden, können jedoch weiterhin von anderen verwendet werden. „Wir können den Benutzern helfen, die Kontrolle über ihre Daten zu behalten und gleichzeitig zu ermöglichen, dass Daten für Modelle des maschinellen Lernens auf datenschutzschonende Weise verwendet werden können“, sagt sie. Laut Song ist die Gesundheitsforschung ein guter Weg, um diese Ideen zu testen, zum Teil, weil die Menschen bereits häufig für die Teilnahme an klinischen Studien bezahlt werden.
Diesen Monat starten Song und Chang in Stanford einen Test des Systems, das sie Kara nennen. Kara verwendet eine Technik, die als "Differential Privacy" bezeichnet wird und bei der die Zutaten für das Training eines KI-Systems für alle Beteiligten nur eingeschränkt sichtbar sind. Patienten laden Bilder ihrer medizinischen Daten hoch - beispielsweise ein Augenscan - und medizinische Forscher wie Chang senden die KI-Systeme, die sie zum Trainieren von Daten benötigen. Das alles ist auf der Blockchain-basierten Plattform von Oasis gespeichert, die die Daten verschlüsselt und anonymisiert. Da alle Berechnungen in dieser Black Box erfolgen, sehen die Forscher die von ihnen verwendeten Daten nie. Die Technik stützt sich auch auf frühere Untersuchungen von Song, um sicherzustellen, dass die Software nicht nachträglich rückentwickelt werden kann, um die für das Training verwendeten Daten zu extrahieren.
Chang ist der Ansicht, dass datenschutzbewusstes Design bei der Bewältigung der Datensilos von Arzneimitteln helfen kann, die verhindern, dass Daten von mehreren Institutionen gemeinsam genutzt werden. Patienten und Ärzte sind möglicherweise eher bereit, ihre Daten hochzuladen, da sie für andere nicht sichtbar sind. Es würde auch bedeuten, Forscher daran zu hindern, Ihre Daten an ein Pharmaunternehmen zu verkaufen.
Hört sich theoretisch gut an, aber wie können Sie Menschen dazu motivieren, Bilder ihrer Gesundheitsakten zu machen? Wenn es darum geht, maschinelle Lernsysteme zu trainieren, sind nicht alle Daten gleich. Das ist eine Herausforderung, wenn es darum geht, die Leute dafür zu bezahlen. Um die Daten zu bewerten, verwendet das System von Song eine Idee, die der Nobelpreisträger Lloyd Shapley im Jahr 1953 entwickelt hat. Stellen Sie sich einen Datensatz als ein Team von Spielern vor, die zusammenarbeiten müssen, um ein bestimmtes Ziel zu erreichen. Was hat jeder Spieler beigetragen? Es geht nicht nur darum, das MVP auszuwählen, erklärt James Zou, Professor für biomedizinische Datenwissenschaften an der Stanford University, der nicht an dem Projekt beteiligt ist. Andere Datenpunkte verhalten sich möglicherweise eher wie Teamplayer. Ihr Beitrag zum Gesamterfolg kann davon abhängen, wer noch spielt.
ERFAHREN SIE MEHR

Der WIRED-Leitfaden für künstliche Intelligenz
In einer medizinischen Studie, die maschinelles Lernen verwendet, gibt es viele Gründe, warum Ihre Daten mehr oder weniger wert sind als meine, sagt Zou. Manchmal liegt es an der Qualität der Daten - ein Augenscan mit schlechter Qualität kann einen Algorithmus zur Erkennung von Krankheiten eher schädlich als nützlich machen. Oder Ihr Scan zeigt Anzeichen einer seltenen Krankheit, die für eine Studie relevant ist. Andere Faktoren sind eher nebulös. Wenn Sie möchten, dass Ihr Algorithmus beispielsweise in einer allgemeinen Population gut funktioniert, möchten Sie eine ebenso unterschiedliche Mischung von Personen in Ihrer Forschung. Daher kann der Shapley-Wert für jemanden aus einer Gruppe, die häufig aus klinischen Studien ausgeschlossen wurde - beispielsweise für Frauen mit Hautfarbe - in einigen Fällen relativ hoch sein. Weiße Männer, die in Datensätzen häufig überrepräsentiert sind, könnten weniger geschätzt werden.
Sagen wir es so und die Dinge fangen an, ein wenig ethisch haarig zu klingen. Es ist nicht ungewöhnlich, dass Menschen in der klinischen Forschung anders bezahlt werden, sagt Govind Persad, Bioethiker an der Universität von Denver, vor allem, wenn es bei einer Studie darauf ankommt, schwer zu rekrutierende Probanden heranzuziehen. Er warnt jedoch davor, dass die Anreize sorgfältig gestaltet werden müssen. Die Patienten müssen ein Gefühl dafür haben, wie viel sie bezahlt bekommen, damit sie nicht unter Druck geraten und solide Begründungen erhalten, die auf gültigen Forschungszielen beruhen, wie ihre Daten bewertet wurden.
Laut Persad ist es eine größere Herausforderung, den Datenmarkt so zu gestalten, wie es beabsichtigt ist. Dies war ein Problem für alle Arten von Blockchain-Unternehmen, die benutzergesteuerte Marktplätze versprechen - vom Verkauf Ihrer DNA-Sequenz bis zu „dezentralen“eBay-Formen. Medizinische Forscher werden Bedenken hinsichtlich der Datenqualität und der Verfügbarkeit der richtigen Daten haben. Sie müssen auch in den Einschränkungen navigieren, die ein Benutzer für die Verwendung seiner Daten festlegen kann. Auf der anderen Seite müssen Patienten darauf vertrauen, dass die Technologie von Oasis und der zugesicherte Datenschutz die beworbene Funktion gewährleisten.