Machine Learning ist ein Teilgebiet der künstlichen Intelligenz: Ein künstliches System lernt aus Beispielen, erkennt Muster und Gesetzmäßigkeiten in den Daten und kann nach Beendigung der Lernphase auch unbekannte Daten beurteilen. Beim Verfahren des „verteilten maschinellen Lernens“ wird ein neuer Ansatz verfolgt: anstelle von Rohdaten werden nur die trainierten Modelle ausgetauscht.
Hochautomatisierte Fahrzeuge erkennen Verkehrsschilder, halten Abstand zu anderen Fahrzeugen, bremsen vor Hindernissen rechtzeitig und finden ihren Weg zum Ziel ohne viel menschliches Zutun. Insbesondere mit Deep Learning – einer Form des maschinellen Lernens, die mit tiefen neuronalen Netzen arbeitet – erzielt die Forschung zurzeit vielversprechende Fortschritte.
Beim klassischen maschinellen Lernen findet das Training der neuronalen Netze vorwiegend in der Cloud statt. Auf einer zentralen Big-Data-Plattform werden historische Daten fortlaufend durch neue Datensätze ergänzt, die beispielsweise über die manuelle Nutzereingabe oder intelligente Sensortechnik gewonnen werden. Damit das künstliche neuronale Netz kontinuierlich lernen kann, ist der Upload von immer neuen Daten nötig. Dieses Paradigma ist jedoch in zahlreichen Anwendungen weder technisch wünschenswert noch rechtlich möglich: Wie im Gesundheitswesen spielt auch im Automotive-Umfeld der Datenschutz eine besondere Rolle und stellt einen gewichtigen Grund dar, um Kundendaten nicht an eine zentrale Plattform in der Cloud zu übermitteln und dort zu speichern. Hinzu kommen technische Hindernisse wie geringe Bandbreiten, hohe Kommunikationskosten, Gefahren des Datenabgriffs durch Cyberattacken sowie die Notwendigkeit kurzer Reaktionszeiten.
Um dem zu begegnen, wird beim Verfahren des verteilten maschinellen Lernens ein neuer Ansatz verfolgt: Die zentrale Idee des sogenannten »learning on the edge« ist es, anstelle der Rohdaten nur die Modelle auszutauschen – Informationen über den Nutzer bleiben also auf dem Gerät und werden nur lokal gespeichert. Der Aufwand für den Austausch von Modellen ist im Vergleich zum Austausch von Rohdaten deutlich geringer. Neue Rohdaten werden direkt vor Ort und ohne Verzögerung verarbeitet, wodurch lange Übertragungszeiten vermieden werden können. Im biomedizinischen Bereich wird dieser Ansatz bereits genutzt, zum Beispiel um für verschiedene Kliniken ein gemeinsames Modell zur Tumorerkennung zu lernen. Die sensiblen Patientendaten verlassen die jeweilige Klinik nicht. Die Gegebenheiten solcher Realeinsätze besser zu berücksichtigen und die Datenschutzfreundlichkeit des Ansatzes weiter zu erhöhen sind Schwerpunkte der aktuellen Forschungstätigkeiten im Bereich des verteilten Lernens.
Im Falle des autonomen Fahrens entsprechen die Endgeräte den Fahrzeugen einer Flotte, weshalb auch von Flottenlernen (engl. »fleet learning«) gesprochen wird. Forscherinnen und Forscher des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS und des Volkswagen-Konzerns haben gemeinsam untersucht, wie die zentralen Herausforderungen des Flottenlernens bewältigt werden können, und auf der European Conference on Machine Learning (ECML) 2018 in Dublin die Ergebnisse vorgestellt (Paper »Efficient Decentralized Deep Learning by Dynamic Model Averaging«). Wie verteiltes Lernen funktioniert, welche Herausforderungen dabei bestehen und welche Fortschritte bereits erzielt wurden, ist im vorliegenden Whitepaper in Kürze zusammengefasst.
Auf Basis gemeinsamer wissenschaftlicher Arbeiten mit Forschern des Volkswagen-Konzerns hat ein Team des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS das Whitepaper »Machine Learning on the edge« veröffentlicht. Es gibt einen Überblick über das Prinzip des verteilten maschinellen Lernens, das insbesondere für das autonome Fahren viele Vorteile hat. Die zentrale Idee ist es, anstelle von Rohdaten nur die trainierten Modelle auszutauschen. Hier geht es zum Whitepaper.