Computertechnologie
Warum maschinelles lernen funktioniert, große Mathematiker wissen es einfach nicht
Autor: Ingrid Daubechies. Ingrid Daubechies Wissenschaft
TELEGRAPHIERTE | 2015-12-12
An einem Abendessen ich vor einigen Jahren
besuchte rückte das unterschiedene unterscheidende geometer Eugenio
Calabi zu mir mit seiner ironischen Unterscheidung zwischen reinen und
angewandten Mathematikern heraus. Ein reiner Mathematiker beschließt,
wenn er auf dem Problem unter Studium steckt, oft, das Problem weiter zu
verengen und das Hindernis so zu vermeiden. Ein angewandter Mathematiker
interpretiert und steckt fest, wie ein Hinweis darauf, dass es Zeit,
mehr Mathematik zu lernen, und Fund sind, besser bearbeitet.
Ich habe diesen Standpunkt immer geliebt; es
erklärt wie angewandte Mathematiker müssen immer die neuen Konzepte und
Strukturen benutzen, die konstant in mehr Grundlagenmathematik
entwickelt werden. Dies ist heute besonders offensichtlich in der
andauernden Anstrengung, "große Daten" zu verstehen, - Datensätze, die
zu groß oder komplex mit Hilfe von traditionellen
Datenverarbeitungstechniken sind, verstanden zu werden.
Unser gegenwärtiges mathematisches
Verständnis von vielen Techniken, die wesentlich für die andauernde
große Datenrevolution sind, ist unzulänglich, an übertreffen.
Berücksichtigen Sie den einfachsten Fall, das von beaufsichtigtem
Lernen, das von Gesellschaften wie Google verwendet worden ist, Facebook
und Apple, um Stimmen- oder Abbildungserkennungstechniken mit einem nahe
Menschen Niveau der Genauigkeit zu schaffen. Diese Systeme beginnen mit
einem massiven Korpus, Proben Millionen oder Milliarden von Abbildungen
oder Stimmenaufnahmen zu trainieren, - welches werden verwendet, um ein
tiefes Neuronennetz zu trainieren, statistische Regelmäßigkeiten zu
entdecken. Wie in anderen Bereichen des maschinellen Lernens, ist die
Hoffnung, dass Computer sich durch genug Daten drehen können um die
Aufgabe "zu lernen": Statt mit den detaillierten für den
Entscheidungsprozess notwendigen Schritten programmiert zu werden,
folgen die Computer Algorithmen, die sie allmählich dazu führen, sich
auf die relevanten Muster zu konzentrieren.
In mathematischer Hinsicht wird diesen
beaufsichtigtem Lernsystemen ein großer Satz von Zufuhren und den
entsprechenden Ausgaben gegeben; das Ziel ist, damit ein Computer die
Funktion lernt, die zuverlässig eine neue Zufuhr in die richtige Ausgabe
verwandelt. Um dieses zu tun, nannten die Computerpausen unten an der
Geheimnisfunktion in eine Anzahl von Schichten von unbekannten
Funktionen sigmoid Funktionen. Diese S förmigen Funktionen sehen wie
eine Straße aus-zu zügeln Wechsel: eine smoothened Stufe von einer Ebene
zu einer anderen, wo die Anfangsebene, die Höhe der Stufe und die Breite
des Übergangsgebiets werden nicht vor Zeit bestimmt.
Zufuhren beginnen mit der ersten Schicht von
sigmoid Funktionen, die Ergebnisse ausspuckt, die gemeinsam sein können,
bevor sie in eine zweite Schicht von sigmoid Funktionen usw. ernährt
werden. Dieses Netz von entstehenden Funktionen bildet das "Netz" in
einem Neuronennetz. Eine "tiefe" hat viele Schichten.
Vor Jahrzehnten, Forscher bewiesen, dass
diese Netze universell sind und bedeuten, dass sie alle möglichen
Funktionen generieren können. Andere Forscher bewiesen später eine
Anzahl von theoretischen Ergebnissen über die einzigartige Korrespondenz
zwischen einem Netz und der Funktion, die es generiert. Aber diese
Ergebnisse nehmen Netze an, die äußerst große Anzahl von Schichten und
von Funktionsknoten innerhalb jeder Schicht haben können. In der Praxis
verwenden Neuronennetze irgendwo, das zwischen zwei und zwei Dutzend
absenkt. Wegen dieser Beschränkung kommt keines der klassischen
Ergebnisse nahe bei zu erklären, warum Neuronennetze und tiefes Lernen
als spektakulär gut funktionieren, wie sie es tun.
Es ist das Leitmotiv von vielen angewandten
Mathematikern, dass, wenn etwas Mathematisches wirklich gut
funktioniert, es einen guten zugrunde liegenden mathematischen Grund
dafür geben muss, und wir sollten in der Lage sein, es zu verstehen. In
diesem besonderen Fall kann es sein, dass wir den entsprechenden
mathematischen Rahmen nicht einmal haben, um es noch zu begreifen.
(Oder, wenn wir es tun, kann es innerhalb eines Bereichs "reiner"
Mathematik entwickelt worden sein, von der es sich noch nicht über
andere mathematische Disziplinen ausgebreitet hat. )
Eine andere bei maschinellem Lernen
verwendete Technik ist nicht überwachtes Lernen, das verwendet wird, um
versteckte Verbindungen in großen Datensätzen zu entdecken. Lassen Sie
uns zum Beispiel sagen, dass Sie Forscher sind, der mehr menschliche
Persönlichkeitstypen erlernen will. Ihnen wird eine äußerst großzügige
Subvention, die Ihnen erlaubt, 200,000 Leuten einen 500
Fragepersönlichkeitstest zu geben, zuerkannt, mit Antworten, die eine
Skala von eins bis 10 anhängen. Schließlich finden Sie sich mit 200,000
Datenpunkten in 500 virtuellen "Dimensionen"-eine Dimension für jedes
des Originals bezweifelt auf dem Persönlichkeitsquiz. Diese zusammen
genommenen Punkte, bilden sich ein niedriger-dimensionale "Oberfläche"
in der 500-dimensional verteilen in, auf dieselbe Weise, das ein
einfaches Komplott der Erhöhung über ein Gebirge schafft eine
zweidimensionale Oberfläche in dreidimensionaler Raum.
Was Sie als Forscher tun möchten, ist
identifizieren diese tiefer dimensionale Oberfläche, dadurch die
Persönlichkeitsportraits des 200,000 zu reduzieren, unterzieht zu ihr
wesentliche Eigenschaften-eine Aufgabe, die ähnlich ist, festzustellen,
dass zwei Variable genügen, um jeden Punkt in der Bergbereichsoberfläche
zu identifizieren. ***Perhaps the personality-test surface can also be
described with a simple function, a connection between a number of
variables that is significantly smaller than 500. *** Diese Funktion
wird wahrscheinlich eine versteckte Struktur in den Daten reflektieren.
In den letzten 15 Jahren oder so haben
Forscher eine Anzahl von Werkzeugen geschaffen, um die Geometrie von
diesen versteckten Strukturen zu untersuchen. Zum Beispiel könnten Sie
ein Modell der Oberfläche durch erstes Heranholen an vielen
verschiedenen Punkten bauen. An jedem Punkt würden Sie einen Tropfen
virtueller Tinte auf die Oberfläche stellen und darauf achten, wie es
verbreitete. Je nachdem wie die Oberfläche an jedem Punkt gebogen ist,
würde die Tinte sich in einigen Richtungen, aber nicht in anderen
verbreiten. Wenn Sie all die Tropfen der Tinte anschließen sollten,
würden Sie ein ziemlich gutes Bild davon bekommen, wie dessen die
Oberfläche als Ganzes aussieht. Und mit dieser Information in der Hand
würden Sie nicht mehr nur eine Sammlung von Datenpunkten haben. Jetzt
würden Sie beginnen, die Verbindungen auf der Oberfläche, den
interessanten Schleifen, Falten und Knicken zu sehen. Dies würde Ihnen
eine Landkarte dafür geben, wie man es erkunden kann.
Diese Methoden führen schon zu interessanten
und nützlichen Ergebnissen, aber noch viel mehr Techniken werden
erforderlich sein. Angewandte Mathematiker haben eine Menge Arbeit zu
machen. Und in Anbetracht von solchen Herausforderungen hoffen sie, dass
viele ihrer "reineren" Kollegen einen offenen Verstand behalten, dem
folgen, was los ist, und helfen Sie, Verbindungen mit anderen
vorhandenen mathematischen Rahmen zu entdecken. Oder bauen Sie eventuell
sogar neue.
Originalgeschichte druckte mit Erlaubnis von
Quanten Zeitschrift nach, eine redaktionell unabhängige Veröffentlichung
der Simon Foundations, deren Auftrag öffentliches
Wissenschaftsverständnis durch Bedecken der Forschungsentwicklungen und
Trends in Mathematik und der ärztlichen Untersuchungs- und
Lebenswissenschaften verbessern soll.
lesen Sie:
http://www.wired.com/2015/12/machine-learning-works-greatmathematicians-just-dont-know-why/