Computertechnologie

Warum maschinelles lernen funktioniert, große Mathematiker wissen es einfach nicht

Autor: Ingrid Daubechies. Ingrid Daubechies Wissenschaft
TELEGRAPHIERTE | 2015-12-12
An einem Abendessen ich vor einigen Jahren besuchte rückte das unterschiedene unterscheidende geometer Eugenio Calabi zu mir mit seiner ironischen Unterscheidung zwischen reinen und angewandten Mathematikern heraus. Ein reiner Mathematiker beschließt, wenn er auf dem Problem unter Studium steckt, oft, das Problem weiter zu verengen und das Hindernis so zu vermeiden. Ein angewandter Mathematiker interpretiert und steckt fest, wie ein Hinweis darauf, dass es Zeit, mehr Mathematik zu lernen, und Fund sind, besser bearbeitet.
Ich habe diesen Standpunkt immer geliebt; es erklärt wie angewandte Mathematiker müssen immer die neuen Konzepte und Strukturen benutzen, die konstant in mehr Grundlagenmathematik entwickelt werden. Dies ist heute besonders offensichtlich in der andauernden Anstrengung, "große Daten" zu verstehen, - Datensätze, die zu groß oder komplex mit Hilfe von traditionellen Datenverarbeitungstechniken sind, verstanden zu werden.
Unser gegenwärtiges mathematisches Verständnis von vielen Techniken, die wesentlich für die andauernde große Datenrevolution sind, ist unzulänglich, an übertreffen. Berücksichtigen Sie den einfachsten Fall, das von beaufsichtigtem Lernen, das von Gesellschaften wie Google verwendet worden ist, Facebook und Apple, um Stimmen- oder Abbildungserkennungstechniken mit einem nahe Menschen Niveau der Genauigkeit zu schaffen. Diese Systeme beginnen mit einem massiven Korpus, Proben Millionen oder Milliarden von Abbildungen oder Stimmenaufnahmen zu trainieren, - welches werden verwendet, um ein tiefes Neuronennetz zu trainieren, statistische Regelmäßigkeiten zu entdecken. Wie in anderen Bereichen des maschinellen Lernens, ist die Hoffnung, dass Computer sich durch genug Daten drehen können um die Aufgabe "zu lernen": Statt mit den detaillierten für den Entscheidungsprozess notwendigen Schritten programmiert zu werden, folgen die Computer Algorithmen, die sie allmählich dazu führen, sich auf die relevanten Muster zu konzentrieren.
In mathematischer Hinsicht wird diesen beaufsichtigtem Lernsystemen ein großer Satz von Zufuhren und den entsprechenden Ausgaben gegeben; das Ziel ist, damit ein Computer die Funktion lernt, die zuverlässig eine neue Zufuhr in die richtige Ausgabe verwandelt. Um dieses zu tun, nannten die Computerpausen unten an der Geheimnisfunktion in eine Anzahl von Schichten von unbekannten Funktionen sigmoid Funktionen. Diese S förmigen Funktionen sehen wie eine Straße aus-zu zügeln Wechsel: eine smoothened Stufe von einer Ebene zu einer anderen, wo die Anfangsebene, die Höhe der Stufe und die Breite des Übergangsgebiets werden nicht vor Zeit bestimmt.
Zufuhren beginnen mit der ersten Schicht von sigmoid Funktionen, die Ergebnisse ausspuckt, die gemeinsam sein können, bevor sie in eine zweite Schicht von sigmoid Funktionen usw. ernährt werden. Dieses Netz von entstehenden Funktionen bildet das "Netz" in einem Neuronennetz. Eine "tiefe" hat viele Schichten.
Vor Jahrzehnten, Forscher bewiesen, dass diese Netze universell sind und bedeuten, dass sie alle möglichen Funktionen generieren können. Andere Forscher bewiesen später eine Anzahl von theoretischen Ergebnissen über die einzigartige Korrespondenz zwischen einem Netz und der Funktion, die es generiert. Aber diese Ergebnisse nehmen Netze an, die äußerst große Anzahl von Schichten und von Funktionsknoten innerhalb jeder Schicht haben können. In der Praxis verwenden Neuronennetze irgendwo, das zwischen zwei und zwei Dutzend absenkt. Wegen dieser Beschränkung kommt keines der klassischen Ergebnisse nahe bei zu erklären, warum Neuronennetze und tiefes Lernen als spektakulär gut funktionieren, wie sie es tun.
Es ist das Leitmotiv von vielen angewandten Mathematikern, dass, wenn etwas Mathematisches wirklich gut funktioniert, es einen guten zugrunde liegenden mathematischen Grund dafür geben muss, und wir sollten in der Lage sein, es zu verstehen. In diesem besonderen Fall kann es sein, dass wir den entsprechenden mathematischen Rahmen nicht einmal haben, um es noch zu begreifen. (Oder, wenn wir es tun, kann es innerhalb eines Bereichs "reiner" Mathematik entwickelt worden sein, von der es sich noch nicht über andere mathematische Disziplinen ausgebreitet hat. )
Eine andere bei maschinellem Lernen verwendete Technik ist nicht überwachtes Lernen, das verwendet wird, um versteckte Verbindungen in großen Datensätzen zu entdecken. Lassen Sie uns zum Beispiel sagen, dass Sie Forscher sind, der mehr menschliche Persönlichkeitstypen erlernen will. Ihnen wird eine äußerst großzügige Subvention, die Ihnen erlaubt, 200,000 Leuten einen 500 Fragepersönlichkeitstest zu geben, zuerkannt, mit Antworten, die eine Skala von eins bis 10 anhängen. Schließlich finden Sie sich mit 200,000 Datenpunkten in 500 virtuellen "Dimensionen"-eine Dimension für jedes des Originals bezweifelt auf dem Persönlichkeitsquiz. Diese zusammen genommenen Punkte, bilden sich ein niedriger-dimensionale "Oberfläche" in der 500-dimensional verteilen in, auf dieselbe Weise, das ein einfaches Komplott der Erhöhung über ein Gebirge schafft eine zweidimensionale Oberfläche in dreidimensionaler Raum.
Was Sie als Forscher tun möchten, ist identifizieren diese tiefer dimensionale Oberfläche, dadurch die Persönlichkeitsportraits des 200,000 zu reduzieren, unterzieht zu ihr wesentliche Eigenschaften-eine Aufgabe, die ähnlich ist, festzustellen, dass zwei Variable genügen, um jeden Punkt in der Bergbereichsoberfläche zu identifizieren. ***Perhaps the personality-test surface can also be described with a simple function, a connection between a number of variables that is significantly smaller than 500. *** Diese Funktion wird wahrscheinlich eine versteckte Struktur in den Daten reflektieren.
In den letzten 15 Jahren oder so haben Forscher eine Anzahl von Werkzeugen geschaffen, um die Geometrie von diesen versteckten Strukturen zu untersuchen. Zum Beispiel könnten Sie ein Modell der Oberfläche durch erstes Heranholen an vielen verschiedenen Punkten bauen. An jedem Punkt würden Sie einen Tropfen virtueller Tinte auf die Oberfläche stellen und darauf achten, wie es verbreitete. Je nachdem wie die Oberfläche an jedem Punkt gebogen ist, würde die Tinte sich in einigen Richtungen, aber nicht in anderen verbreiten. Wenn Sie all die Tropfen der Tinte anschließen sollten, würden Sie ein ziemlich gutes Bild davon bekommen, wie dessen die Oberfläche als Ganzes aussieht. Und mit dieser Information in der Hand würden Sie nicht mehr nur eine Sammlung von Datenpunkten haben. Jetzt würden Sie beginnen, die Verbindungen auf der Oberfläche, den interessanten Schleifen, Falten und Knicken zu sehen. Dies würde Ihnen eine Landkarte dafür geben, wie man es erkunden kann.
Diese Methoden führen schon zu interessanten und nützlichen Ergebnissen, aber noch viel mehr Techniken werden erforderlich sein. Angewandte Mathematiker haben eine Menge Arbeit zu machen. Und in Anbetracht von solchen Herausforderungen hoffen sie, dass viele ihrer "reineren" Kollegen einen offenen Verstand behalten, dem folgen, was los ist, und helfen Sie, Verbindungen mit anderen vorhandenen mathematischen Rahmen zu entdecken. Oder bauen Sie eventuell sogar neue.
Originalgeschichte druckte mit Erlaubnis von Quanten Zeitschrift nach, eine redaktionell unabhängige Veröffentlichung der Simon Foundations, deren Auftrag öffentliches Wissenschaftsverständnis durch Bedecken der Forschungsentwicklungen und Trends in Mathematik und der ärztlichen Untersuchungs- und Lebenswissenschaften verbessern soll.
lesen Sie: http://www.wired.com/2015/12/machine-learning-works-greatmathematicians-just-dont-know-why/