Inhalt
Prof. Dr. Patrick van der Smagt

Prof. Dr. Patrick van der Smagt forscht seit den achtziger Jahren an neuralen Netzen. Damals für seine Masterarbeit, später für seine Dissertation, dann für die Robotik am DLR, als Professor an der TUM, für mehrere Startups und jetzt als Leiter des Münchner Machine Learning Research Labs bei Volkswagen AG.

Gauß ist Normal

Der zentrale Grenzwertsatz (central limit theorem) wurde 1733 von Abraham de Moivre postuliert, von Pierre-Simon Laplace 1812 erweitert und 1901 von Alexandr Lyapunov umfassend bewiesen[1]: eine unendliche Anzahl von Zufallsvariablen ist immer Normal verteilt. Oder einfacher gesagt: wenn ich eine Messung genügend oft wiederhole, dann kann ich die Verteilung der Messdaten gut genug durch eine Normale Verteilung (auch als Gaußsche Verteilung bekannt) darstellen.

Warum ist das wichtig? Für eine Verteilung wie die Gaußsche gibt es eine Formel, die diese genauestens beschreibt. Passen Daten zu der Verteilung, dann muss ich also nicht diese Daten speichern, sondern nur die entsprechende Formel. Und diese Formel kann durch nur zwei Zahlen dargestellt werden: der Mittelwert und die Varianz. Das macht das Speichern und die Weiterverarbeitung sehr effizient. Kurz gesagt: die Normale Verteilung ist kostengünstig und universell einsetzbar, um Daten jeglicher Art darzustellen.

Daten

…wenn es viele Daten sind. Damit haben wir den Grund, weshalb neurale Netze[2] – heutzutage populistischer als „deep learning“ bekannt – so datenhungrig sind. Es gibt aber noch einen zweiten, eher technischen Grund: da neurale Netze sgn. parametrisierte Modelle sind, die eine bestimmte (aber große) Anzahl einstellbare (= zu lernenden) Parameter haben, sind auch viele Daten notwendig, um diese sinnvoll zu bestimmen. Zu wenige Daten führen schnell zu overfitting, wobei das neurale Netz nur diese wenigen Daten gut darstellen kann, aber nicht auf neue Daten generalisiert.[3]

Neurale Netze gehören heutzutage zu den mächtigsten statistischen Werkzeugen eines Machine-Learners, dessen Interesse es ist, Zusammenhänge zwischen Daten zu finden. Mathematisch schreibt man gerne p(y|x), das heißt, ich suche die Wahrscheinlichkeit von (Entscheidung) y gegeben (Beobachtung) x, z. B: die Wahrscheinlichkeit p, dass in einem bestimmten Bild x, ein Baum zu sehen ist (y=1) oder nicht (y=0). Dank neuralen Netzen ist es heutzutage eine relativ einfache Aufgabe. Vorausgesetzt natürlich, dass genügend Bilder „mit“ bzw. „ohne“ Baum vorliegen, und dass jemand sich die Mühe gemacht hat, diese Bilder dann auch entsprechend zu kategorisieren. Im „Machine-Learning“ Umfeld reden wir von „labeln“ oder „annotieren“.

Die Anforderungen an einen geeigneten Datensatz sind dreierlei. Erstens, es müssen genügend Daten vorliegen, damit ich meine Gaußsche Annahme machen kann. Zweitens, diese Daten müssen sauber gelabelt sein. Drittens, die Daten müssen voneinander unabhängig sein. Der letzte Punkt ist beispielsweise nicht erfüllt, wenn ich nur einen Ton benutzen möchte, um zu bestimmen, ob ich gerade die 1. oder 2. Symphonie von van Beethoven höre.

Sind diese Voraussetzungen gegeben, dann sind statistische Methoden wie neurale Netze sehr gut geeignet, um uns bei wiederkehrenden monotonen Arbeitsabläufen zu unterstützen. Denn gerade bei solchen Arbeitsabläufen machen Menschen oft Fehler, da unser Gehirn immer wieder versucht, neue, effizientere Lösungen zu finden. Wir explorieren durchgehend und riskieren damit „Flüchtigkeitsfehler“.

Dieses Paradigma, von Menschen-gelabelten Daten zu lernen, ist zwar mächtig, aber auch begrenzt. Hat ein neurales Netzwerk eine bestimmte Abhängigkeit zwischen Daten aus Beispielen gelernt, dann ist dessen Anwendung effizient möglich. Ändert sich aber die Abhängigkeit, dann gibt es keine bessere Lösung als erneut Daten aufzunehmen und zu labeln, und das neurale Netzwerk mit den neuen Daten zu trainieren. Vor allem der erste Schritt ist kostspielig und aufwändig und verhindert den autonomen Einsatz von solchen Methoden, weil viele Daten notwendig sind.

Anomalieerkennung ist a-Normal

Das in der Produktion vielleicht bekannteste Anwendungsbeispiel von modernen Machine-Learning ist die Anomalieerkennung. Im Produktionsprozess hört ein Meister es sofort, wenn eine Maschine nicht richtig läuft. Nicht weil diese ein bekanntes Geräusch macht, sondern weil das Geräusch unbekannt ist. Bei der Anomalieerkennung ist der Name Programm. Es geht hier um die Erkennung von Daten, die der Normalen Verteilung nicht getreu sind. Wie können entsprechende Daten zur Verfügung gestellt werden? Der „Normalfall“ kann vielleicht gut mit der normalen Verteilung beschrieben werden, aber die Ausreißer eben nicht, gerade weil sie so selten auftreten. Das bietet einen Ansatz, um diese Daten zu erkennen. Lernen von Menschen-annotierten Ausreißern geht aber nicht; dafür sind es zu wenige.  Anomalieerkennung ist ein Spezialfall beim maschinellen Lernen und die Entwicklung von allgemeinen Methoden eine Forschungsfrage.

Lernen ohne Lehrer

Bislang wurde gezeigt, dass „Machine-Learning“-Methoden von gut strukturierten, gelabelten Daten leben und somit von menschlicher Vorarbeit abhängig sind. Im Gegensatz dazu lernen Lebewesen aber den Hauptteil ihrer Fähigkeiten ohne Lehrer; die wenigsten Fähigkeiten lernen wir durch nachmachen. Wichtiger ist die eigenständige oder überwachte Exploration. Formaler: Die meisten sensomotorischen und kognitiven Fähigkeiten werden von Tier und Mensch durch das Beobachten der Perzeption–Aktionsschleife ergattert. Können moderne „Machine-Learning“-Methoden dies nicht auch?

Viele Forschergruppen weltweit haben gezeigt, dass die Kombination von verstärkendem Lernen (reinforcement learning) und neuralen Netzen dies ermöglicht. Wenn so ein System autark Aktionen ausführen kann und dessen Ergebnis ermittelt bekommt – zum Beispiel bei einem Computerspiel – ist es in der Lage, eine effiziente, und in Theorie sogar optimale, Lösung zu finden. Es erreicht dies, in dem es erlernt, was die künftigen Kosten sind für jeden möglichen Schritt in jedem Zustand. Der Trick bei der Sache ist natürlich, dies effizient zu tun, aber noch immer sind hierzu eine erhebliche Anzahl “trial-and-error” Versuche notwendig; oft sind dies mehrere tausende Versuche. Das ist problemlos machbar bei einem Computerspiel, aber undenkbar in einem Produktionsprozess.

Vorwissen

Was machen Menschen anders? Das Kombinieren von Sinneseindrücken mit Vorwissen ermöglicht es uns, mit nur sehr wenig Beobachtung (hoffentlich) solide Entscheidungen zu treffen. Beispiel Fahrradfahren: einmal gelernt, ist es einfach, auf einem anderen Fahrrad zu fahren, auch wenn dieses größer bzw. kleiner ist oder auf der Piste neue Skier zu nutzen bzw. auf einer anderen Tastatur zu tippen. Grundfähigkeiten müssen nicht jedes Mal von Grund auf erlernt werden, da das Vorwissen bereits gespeichert ist und dieses mit eigenen Beobachtungen kombiniert werden kann.

Wie das in der Wahrscheinlichkeitsrechnung funktioniert, wurde von Thomas Bayes (1701-1761) angedeutet und später von Laplace formalisiert, nämlich mit der sogenannten Bayes Formel. Diese beschreibt, dass unsere Erwartung (posterior) proportional mit dem Produkt vom Vorwissen (prior) mit der Messung (likelihood) ist. Einfacher gesagt: Ich kann Vorwissen mit Messungen kombinieren, um eine bessere Schätzung der Wahrheit zu erhalten. Anhand dieser Formel haben „Machine-Learner“ ein Rezept, wie Vorwissen genau verarbeitet werden sollte, vorausgesetzt dass dieses Vorwissen als Wahrscheinlichkeitsverteilung zur Verfügung steht. Und das ist äußerst selten der Fall.

Im Allgemeinen ist nicht geklärt, wie Vorwissen am besten dargestellt werden kann, um in einer statistischen Methode – wie ein neurales Netzwerk – eingebracht zu werden. Beispiel Konvolutionsnetze: Forscher haben das Vorwissen aus der Bildverarbeitung verwendet, um diesen Netzen eine Struktur zu geben, damit sie effizienter lernen können. Verallgemeinern auf andere Datenarten lässt sich dieser Ansatz aber nicht.

… und Robotik

Fakt ist: In der Biologie findet man neuronale Netze nur dann, wenn ein Organismus sich schnell bewegen muss. Der endgültige Ausgang eines Neurons ist die Muskelbewegung. In der Technik sind diese getrennt: Roboter werden meist ohne „Machine-Learning“-Methoden eingesetzt, sowie andersrum. Wenn auch bereits seit längerem, vor allem von „Machine-Learnern“, intensiv erforscht, ist der Zusammenschluss zwischen Robotik und „Machine-Learning“ kaum in Anwendungen vorhanden. Dafür gibt es zwei Gründe: Erstens der „Datenhunger“ der lernenden Methoden, die von der Hardware nicht bedient werden kann. Zweitens die meist nicht vorhandene beweisbare Sicherheit von den „Machine-Learning“- Methoden. Größere Erfolge müssen hier noch erzielt werden.

Vorsichtig anwenden

Aus den vorgebrachten Argumenten sehen wir: Moderne Methoden des Maschinellen Lernens ermöglichen eine Erleichterung bei wiederkehrenden monotonen Arbeitsabläufen. Sie können Menschen bei deren tagtäglicher Arbeit unterstützen und Zusammenhänge finden, die für uns nicht immer oder manchmal nur „intuitiv“, sichtbar sind.

Gemessen an der rasanten Entwicklung des maschinellen Lernens in den letzten 10 Jahren, ist es anzunehmen, dass solche Methoden immer weitere Anwendungsfelder abdecken können. Gleichzeitig sind wir aber noch weit davon entfernt, Zusammenhänge mit nur einer geringen Anzahl Daten zu finden und anzuwenden. Ob neurale Netze das jemals schaffen, bleibt vorerst fraglich. Es ist jetzt der richtige Moment, um Grundlagenforschung zu diesen Themen großflächig zu unterstützen.

Fazit

Es ist nicht zu erwarten, dass unserer Gesellschaft in den nächsten fünf Jahren eine tiefgreifende Umstrukturierung der Beschäftigungsmodelle bevorsteht. Zudem lehrt uns die Geschichte immer, dass ein technologischer Vorsprung zu mehr Beschäftigung führt, statt zum Stellenabbau. Und mit der breiten Anwendung von Methoden des Maschinellen Lernens – der künstlichen Intelligenz – sieht es vorerst nicht anders aus.

Nichtsdestotrotz bieten diese neuen Methoden die Möglichkeit, Daten zu verknüpfen, wo das menschliche Gehirn seine Kapazitätsgrenze erreicht. Der Umgang mit diesen Methoden sollte wohlbedacht sein, um unsere Gesellschaft und Umwelt zu schützen. Aber wir können auch den nächsten Schritt machen: wie kann maschinelles Lernen eingesetzt werden, um etwa die 17 Ziele für nachhaltige Entwicklung der Vereinten Nationen zu unterstützen?

Mehrere Initiativen weltweit fokussieren auf diese Themen. In den meisten Fällen tun sich hier Politiker und Geisteswissenschaftler zusammen, um Grundsätze zu definieren. Oft fehlt aber die Anknüpfung an die Forschung zum Thema Maschinelles Lernen.

[1] Understanding Probability, Henk Tijms, Cambridge University Press, 2012.

[2] Normalerweise „neuronale Netze“ genannt. Dieser Sprachgebrauch ist in Deutschland fast einzigartig. In den meisten anderen Sprachen wird zwischen „neuronale Netze“, solche wie man die in unserem Gehirn findet, und „neurale Netze“, dessen technischen Gegenpol, unterschieden. Dieser Unterschied ist in Österreich Usus.

[3] Diese Aussage ist nicht ganz richtig und deshalb mit Vorsicht zu genießen. Es gibt mehrere Methoden, um dieses Overfitting zu verhindern, z.B. early stopping, weight regularisation und Dropout. Auch das Lernen mit sgn. Bayesschen neuralen Netzen kann dieses Problem weitgehend lösen, wobei entsprechende Forschungsergebnisse zurzeit nur spekulativ sind.

 

 

Der Beitrag ist im ICC-Germany-Magazin, Nr. 08, erschienen. Mehr über unser Magazin erfahren und kostenfrei abonnieren.

Bildnachweis: © benjaminec – istockphoto.com